Asymmetric Flow Models: SOTA FID 1,57 на ImageNet через ранг-асимметричную параметризацию скоростей
Stanford University
AsymFlow вводит ранг-асимметричную параметризацию скоростей для генеративных моделей на основе потоков: предсказание шума ограничено подпространством низкого ранга, тогда как предсказание данных остаётся полноразмерным. Эта асимметрия устраняет фундаментальное противоречие в моделировании потоков в пространствах высокой размерности. Метод достигает FID 1,57 на ImageNet в пиксельном пространстве, а при файнтюнинге предобученных latent flow моделей (например, FLUX.2 klein 9B) устанавливает результаты уровня state-of-the-art для text-to-image генерации в пиксельном пространстве.
Почему это важно
290 upvote на HuggingFace Daily Papers за 14 мая — лучшая статья дня. Ранг-асимметричная параметризация приближает качество генерации в пиксельном пространстве к уровню latent-пространства, потенциально упрощая будущие генеративные архитектуры.
Важность: 3/5
Лучшая статья HF Daily Papers 14 мая (290 upvote); SOTA FID 1,57 при генерации в пиксельном пространстве ImageNet