Wan-Streamer v0.1: сквозная интерактивная фундаментальная модель реального времени с задержкой менее 550 мс
Wan-AI
Унифицированная фундаментальная модель для мультимодального взаимодействия в реальном времени, обрабатывающая текст, аудио и видео в едином Transformer с block-causal attention. В отличие от пайплайновых систем, объединяющих отдельные модули ASR, рассуждения и TTS, Wan-Streamer совместно обучает восприятие, рассуждение и генерацию — достигая ~200 мс задержки на стороне модели и 550 мс общей задержки взаимодействия, с единицами стриминга от 160 мс при 25 кадрах в секунду. На данный момент разрешение 192p — как proof of concept.
Почему это важно
Интерактивный ИИ реального времени, в котором модель видит, слышит и отвечает звуком и видео за полсекунды, был сложной системной задачей. Wan-Streamer демонстрирует, что сквозное совместное обучение в едином Transformer способно достичь целевых показателей задержки, ранее требовавших специализированного пайплайнового склеивания.
Важность: 2/5
Новая архитектура, достигающая полнодуплексной мультимодальной задержки <550 мс; открывает путь к субсекундному взаимодействию с ИИ