Asymmetric Flow Models: SOTA FID 1,57 на ImageNet через ранг-асимметричную параметризацию скоростей

Stanford University

исследования офиц. + СМИ 2 ист. ~1 мин

AsymFlow вводит ранг-асимметричную параметризацию скоростей для генеративных моделей на основе потоков: предсказание шума ограничено подпространством низкого ранга, тогда как предсказание данных остаётся полноразмерным. Эта асимметрия устраняет фундаментальное противоречие в моделировании потоков в пространствах высокой размерности. Метод достигает FID 1,57 на ImageNet в пиксельном пространстве, а при файнтюнинге предобученных latent flow моделей (например, FLUX.2 klein 9B) устанавливает результаты уровня state-of-the-art для text-to-image генерации в пиксельном пространстве.

Почему это важно

290 upvote на HuggingFace Daily Papers за 14 мая — лучшая статья дня. Ранг-асимметричная параметризация приближает качество генерации в пиксельном пространстве к уровню latent-пространства, потенциально упрощая будущие генеративные архитектуры.

Важность: 3/5

Лучшая статья HF Daily Papers 14 мая (290 upvote); SOTA FID 1,57 при генерации в пиксельном пространстве ImageNet

Источники

официальный Asymmetric Flow Models — arXiv