interpretability — AI Digest

8 мая Natural Language Autoencoders: превращение внутренних состояний Claude в текст Anthropic research
10 мая Anthropic представляет Natural Language Autoencoders для масштабируемой интерпретируемости LLM Anthropic research
18 мая Judge Circuits: механистическое объяснение непоследовательности LLM-as-judge по форматам research
19 мая CiteVQA: бенчмарк атрибуции доказательств для надёжной document intelligence (178 апвоутов на HF) Peking University / Shanghai Artificial Intelligence Laboratory research
18 июн Вмешательства SAE ненадёжны: подавленное поведение восстанавливается после интервенции Hong Kong Polytechnic University research
3 июн Quantifying Faithful Confidence Expression in Large Reasoning Models Yale NLP research
11 июн Анатомия пост-обучения: использование интерпретируемости для аудита и исправления данных предпочтений research
28 апр LLM Safety From Within (SIREN) University of Toronto CSSLab / McGill / LMU Munich research