Mean Mode Screaming: исправление патологии обучения открывает путь к 1000-слойным Diffusion Transformer

исследования офиц. + СМИ 2 ист. ~1 мин

В статье идентифицируется Mean Mode Screaming (MMS) — коллапс обучения, при котором Diffusion Transformer на экстремальных глубинах подавляет вариацию токенов при внешне стабильных значениях потерь. Предложенные Mean-Variance Split (MV-Split) Residuals объединяют отдельно масштабируемое центрированное остаточное обновление с заменой leaky trunk-mean, устраняя события коллапса и обеспечивая стабильное обучение DiT с 1000 слоями.

Почему это важно

119 голосов в HF Daily; напрямую касается масштабирования генеративных моделей — предыдущие попытки наращивания глубины для конвейеров на основе DiT имели этот скрытый режим отказа, который лишь сейчас был диагностирован и устранён на архитектурном уровне.

Важность: 3/5

119 голосов в HF Daily; выявляет и устраняет ранее скрытый коллапс обучения на экстремальных глубинах DiT, открывая возможность создания 1000-слойных архитектур diffusion transformer.

Источники