ByteDance запускает Seed-Audio 1.0: унифицированная генерация речи, музыки и фоновых звуков

ByteDance

аудио офиц. + СМИ 3 ист. ~1 мин

Анонсированная вместе с Seedance 2.5 на конференции Volcano Engine FORCE 23 июня, Seed-Audio 1.0 генерирует многоперсонажные диалоги с различными голосами, фоновую музыку, звуковые эффекты и акустическую атмосферу за единый сквозной проход длиной до 2 минут. Принимает текстовые подсказки и референсное аудио для стилевого соответствия и клонирования голоса; доступна через API ByteDance Volcano Ark, интегрированный в CapCut, Jimeng и Fanqie.

Почему это важно

Seed-Audio 1.0 позиционирует ByteDance как полностековый генеративный медиапровайдер, объединяя голос, музыку и эффекты в одной модели — прямой конкурент мультипродуктовому набору ElevenLabs и снижение потребности в отдельных специализированных инструментах в контентных пайплайнах.

Важность: 3/5

Унифицированная генерация речи, музыки и фонового звука в одной модели от крупной китайской лаборатории с охватом 180T токенов в день

tts music-generation voice-cloning audio bytedance chinese-lab release

Источники

официальный ByteDance Seed Models — Official List

СМИ ByteDance's Seedance 2.5 breaks the 30-second barrier (covers full FORCE conference suite) — The Decoder

СМИ ByteDance unveils Seedance 2.5 (covers full conference releases) — The Next Web