Wan-Streamer v0.1: сквозная интерактивная фундаментальная модель реального времени с задержкой менее 550 мс

Wan-AI

исследования офиц. + СМИ 2 ист. ~1 мин

Унифицированная фундаментальная модель для мультимодального взаимодействия в реальном времени, обрабатывающая текст, аудио и видео в едином Transformer с block-causal attention. В отличие от пайплайновых систем, объединяющих отдельные модули ASR, рассуждения и TTS, Wan-Streamer совместно обучает восприятие, рассуждение и генерацию — достигая ~200 мс задержки на стороне модели и 550 мс общей задержки взаимодействия, с единицами стриминга от 160 мс при 25 кадрах в секунду. На данный момент разрешение 192p — как proof of concept.

Почему это важно

Интерактивный ИИ реального времени, в котором модель видит, слышит и отвечает звуком и видео за полсекунды, был сложной системной задачей. Wan-Streamer демонстрирует, что сквозное совместное обучение в едином Transformer способно достичь целевых показателей задержки, ранее требовавших специализированного пайплайнового склеивания.

Важность: 2/5

Новая архитектура, достигающая полнодуплексной мультимодальной задержки <550 мс; открывает путь к субсекундному взаимодействию с ИИ

multimodal streaming real-time audio paper architecture

Источники

официальный arXiv:2606.25041 — Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models

СМИ HuggingFace Daily Papers — June 25, 2026 (22 upvotes)