UniVidX: единый диффузионный бэкбон для генерации RGB, карт внутренних признаков и RGBA-видео

исследования офиц. + СМИ 2 ист. ~1 мин

UniVidX предлагает единый фреймворк для решения нескольких задач генерации видео — синтеза RGB, генерации карт внутренних признаков и декомпозиции RGBA-слоёв — без использования отдельных моделей. Это обеспечивают три компонента: Stochastic Condition Masking (SCM) случайным образом разбивает модальности на условия и цели во время обучения; Decoupled Gated LoRA (DGL) применяет адаптации для каждой модальности; Cross-Modal Self-Attention (CMSA) обменивается информацией между модальностями. Система демонстрирует конкурентоспособные результаты при обучении менее чем на 1 000 видео.

Почему это важно

Объединение нескольких задач генерации видео в одном бэкбоне без деградации нативных возможностей — ключевая цель эффективности для продакшн-видеомоделей. Подход требует минимального объёма обучающих данных, снижая порог входа для исследований в области многозадачной генерации видео. Возглавила HF Daily Papers 4 мая с 70 голосами.

Важность: 3/5

Первое место в HF Daily Papers 4 мая с 70 голосами; объединённая многозадачная генерация видео на едином диффузионном бэкбоне.

multimodal video-generation diffusion paper

Источники

официальный UniVidX: A Unified Multimodal Framework for Versatile Video Generation — arXiv

вторичный HuggingFace Daily Papers — May 4, 2026