#interpretability
- Natural Language Autoencoders: превращение внутренних состояний Claude в текст Anthropic research
- Anthropic представляет Natural Language Autoencoders для масштабируемой интерпретируемости LLM Anthropic research
- Judge Circuits: механистическое объяснение непоследовательности LLM-as-judge по форматам research
- CiteVQA: бенчмарк атрибуции доказательств для надёжной document intelligence (178 апвоутов на HF) Peking University / Shanghai Artificial Intelligence Laboratory research
- Вмешательства SAE ненадёжны: подавленное поведение восстанавливается после интервенции Hong Kong Polytechnic University research
- Quantifying Faithful Confidence Expression in Large Reasoning Models Yale NLP research
- Анатомия пост-обучения: использование интерпретируемости для аудита и исправления данных предпочтений research
- LLM Safety From Within (SIREN) University of Toronto CSSLab / McGill / LMU Munich research