Плотного надзора недостаточно: слепое пятно считывания в зациклённых языковых моделях

исследования официальный 1 ист. ~1 мин

Статья диагностирует сбой обучения в зациклённых (рекуррентных) архитектурах трансформеров: инвариантные к масштабу считывания, такие как RMSNorm и LayerNorm, создают «слепое пятно», при котором пошаговый надзор с cross-entropy оставляет нормы скрытых состояний неконтролируемыми — они вырастают до тысяч, несмотря на плотный надзор. Авторы предлагают два архитектурных решения — сделать масштаб видимым для функции потерь или убрать его из рекуррентного цикла — и демонстрируют, что варианты с контролем масштаба достигают лучшей перплексии при совпадающей глубине инференса на моделях 44M и 129M параметров.

Почему это важно

Зациклённые/рекуррентные трансформеры — перспективное направление для вычислительно-эффективного инференса (повторное использование весов на разных глубинах), однако нестабильность обучения ограничивала их применение. Работа даёт конкретный диагноз и простое правило проектирования, которое может разблокировать практическую разработку этого класса архитектур.

Важность: 2/5

Конкретный диагноз и архитектурное исправление нестабильности обучения в зациклённых трансформерах — разблокирует перспективную вычислительно-эффективную архитектуру

reasoning pre-training training-dynamics paper

Источники

официальный Dense Supervision Is Not Enough: The Readout Blind Spot in Looped Language Models — arXiv