Mean Mode Screaming: исправление патологии обучения открывает путь к 1000-слойным Diffusion Transformer
В статье идентифицируется Mean Mode Screaming (MMS) — коллапс обучения, при котором Diffusion Transformer на экстремальных глубинах подавляет вариацию токенов при внешне стабильных значениях потерь. Предложенные Mean-Variance Split (MV-Split) Residuals объединяют отдельно масштабируемое центрированное остаточное обновление с заменой leaky trunk-mean, устраняя события коллапса и обеспечивая стабильное обучение DiT с 1000 слоями.
Почему это важно
119 голосов в HF Daily; напрямую касается масштабирования генеративных моделей — предыдущие попытки наращивания глубины для конвейеров на основе DiT имели этот скрытый режим отказа, который лишь сейчас был диагностирован и устранён на архитектурном уровне.
Важность: 3/5
119 голосов в HF Daily; выявляет и устраняет ранее скрытый коллапс обучения на экстремальных глубинах DiT, открывая возможность создания 1000-слойных архитектур diffusion transformer.