Структурное происхождение attention sink: расхождение дисперсий, суперн ейроны и исправление
Принятая на ICML 2026 статья (arXiv:2605.06611) прослеживает attention sinks — когда начальные токены непропорционально привлекают внимание — до расхождения дисперсий в агрегации значений, усиленного активацией «суперн ейронов» в слоях FFN, вызывающей несоответствие размерностей в представлениях первого токена. Два контролируемых эксперимента подтверждают причинно-следственную цепочку. Авторы предлагают по-head RMSNorm как архитектурное исправление, восстанавливающее статистический баланс, стабилизирующее выходы и ускоряющее сходимость обучения.
Почему это важно
Механистическое причинное объяснение широко наблюдаемого, но слабо понимаемого явления с конкретным архитектурным средством, практически полезным для разработчиков систем с длинным контекстом и эффективным инфeрренсом. Принятие на ICML 2026 добавляет авторитет рецензирования.
Важность: 2/5
Принято на ICML 2026; первое механистическое причинное объяснение attention sink с подтверждённым архитектурным исправлением (head-wise RMSNorm).