DomainShuttle: синтез видео по субъекту из текста для внутри- и междоменных сценариев

исследования офиц. + СМИ 2 ист. ~1 мин

Система text-to-video для субъектно-управляемого синтеза в двух сценариях: внутридоменном (точное сохранение признаков референсного субъекта) и межсценном (гибкая вариация при сохранении идентичности). Вводятся Domain-MoT (domain-aware adaptive layer normalization), Video-Reference DualRoPE (отдельное ротационное позиционное кодирование для референсных и видеотокенов) и Cross-Pair Consistent Loss. Третье место на HF Daily Papers за 25 июня (34 голоса).

Почему это важно

Существующие методы субъектно-управляемого видео вынуждены выбирать между точностью и редактируемостью — DomainShuttle предлагает архитектурные компоненты, разделяющие эти цели и позволяющие одновременно точно сохранять субъект и свободно переносить его в другой домен.

Важность: 2/5

Новая архитектура, разделяющая точность идентичности и гибкость домена в субъектно-управляемом видео; 34 голоса на HF

Источники