UniVidX: единый диффузионный бэкбон для генерации RGB, карт внутренних признаков и RGBA-видео
UniVidX предлагает единый фреймворк для решения нескольких задач генерации видео — синтеза RGB, генерации карт внутренних признаков и декомпозиции RGBA-слоёв — без использования отдельных моделей. Это обеспечивают три компонента: Stochastic Condition Masking (SCM) случайным образом разбивает модальности на условия и цели во время обучения; Decoupled Gated LoRA (DGL) применяет адаптации для каждой модальности; Cross-Modal Self-Attention (CMSA) обменивается информацией между модальностями. Система демонстрирует конкурентоспособные результаты при обучении менее чем на 1 000 видео.
Почему это важно
Объединение нескольких задач генерации видео в одном бэкбоне без деградации нативных возможностей — ключевая цель эффективности для продакшн-видеомоделей. Подход требует минимального объёма обучающих данных, снижая порог входа для исследований в области многозадачной генерации видео. Возглавила HF Daily Papers 4 мая с 70 голосами.
Важность: 3/5
Первое место в HF Daily Papers 4 мая с 70 голосами; объединённая многозадачная генерация видео на едином диффузионном бэкбоне.