JoyAI-VL-Interaction: открытая VLM на 8B для взаимодействия в реальном времени с автономным управлением очередью речи

JD.com

исследования официальный 3 ист. ~1 мин

JoyAI-VL-Interaction (arXiv 2606.14777) — VLM на 8B для непрерывного взаимодействия с видеопотоком в реальном времени: модель наблюдает за живым видеопотоком и автономно решает, когда говорить, а когда молчать. Выпущена вместе с рецептом обучения, временно-выровненными данными взаимодействия и полностью развёртываемой открытой системой (подключаемые ASR/TTS, память, API фонового агента). Люди-оценщики предпочли её ассистентам Doubao и Gemini в шести реальных сценариях.

Почему это важно

223 голоса на HuggingFace Daily Papers. Одна из первых 8B-моделей для всегда-включённого видеопотока с автономным управлением очередью речи — ближе к ассистенту реального времени, чем к чат-боту, с полным открытым релизом (модель + данные + система).

Важность: 4/5

223 голоса на HF + новая VLM с автономным управлением очередью речи и полным открытым релизом

Источники

официальный arXiv:2606.14777
официальный GitHub: JoyAI-VL-Interaction
официальный HuggingFace Papers