SANA-WM: мировое моделирование 720p длительностью в минуту на одном GPU
NVIDIA
SANA-WM (arXiv 2605.15178, 54 голоса HF Daily) — мировая модель на 2,6 млрд параметров, генерирующая высококачественное видео 720p длительностью в минуты с 6-DOF управлением камерой. Использует гибридное линейное внимание для обработки длинных последовательностей и двухветвевую систему управления камерой. Генерирует 60-секундные клипы на одном GPU; дистиллированные версии работают на потребительском железе. Обучена за 15 дней на 64 GPU — существенно эффективнее сопоставимых промышленных систем.
Почему это важно
Генерация видео 720p длительностью в минуту на одном GPU — значимый рубеж эффективности вычислений. Предыдущие работы либо требовали крупных кластеров для достижения качества, либо жертвовали качеством ради скорости. Архитектура гибридного линейного внимания указывает на масштабируемый путь для симуляции воплощённого ИИ без специализированной инфраструктуры.
Важность: 3/5
54 голоса HF Daily; 60-секундное видео 720p на одном GPU — практический рубеж эффективности для мировых моделей