ByteDance запускает Seed-Audio 1.0: унифицированная генерация речи, музыки и фоновых звуков
ByteDance
Анонсированная вместе с Seedance 2.5 на конференции Volcano Engine FORCE 23 июня, Seed-Audio 1.0 генерирует многоперсонажные диалоги с различными голосами, фоновую музыку, звуковые эффекты и акустическую атмосферу за единый сквозной проход длиной до 2 минут. Принимает текстовые подсказки и референсное аудио для стилевого соответствия и клонирования голоса; доступна через API ByteDance Volcano Ark, интегрированный в CapCut, Jimeng и Fanqie.
Почему это важно
Seed-Audio 1.0 позиционирует ByteDance как полностековый генеративный медиапровайдер, объединяя голос, музыку и эффекты в одной модели — прямой конкурент мультипродуктовому набору ElevenLabs и снижение потребности в отдельных специализированных инструментах в контентных пайплайнах.
Важность: 3/5
Унифицированная генерация речи, музыки и фонового звука в одной модели от крупной китайской лаборатории с охватом 180T токенов в день