Kwai Keye-VL-2.0: открытая мультимодальная MoE-модель 30B с контекстом 256K для длинного видео

Kwai

исследования официальный 1 ист. ~1 мин

Kwai выпустил Keye-VL-2.0 — открытую мультимодальную модель 30B в архитектуре Mixture-of-Experts с 3B активных параметров. Ключевое достижение: адаптация sparse attention (на основе DeepSeek) для поддержки контекста 256K токенов без потерь при обработке видео длиной до часа. Новая техника обучения Cross-Modal Multi-Teacher On-Policy Distillation предотвращает катастрофическое забывание между задачами. Поддерживает мультимодальные агентские сценарии: выполнение кода, вызов инструментов и веб-поиск.

Почему это важно

785 голосов на HuggingFace — лучшая статья 10 июня. Обеспечивает state-of-the-art понимание длинного видео (Video-MME-v2, LongVideoBench, TimeLens) при конкурентном бюджете параметров, с полностью открытыми весами и встроенными агентскими возможностями. Повышает планку для открытых мультимодальных моделей.

Важность: 4/5

Лучшая статья HF Daily Paper 10 июня (785 голосов, +1 bump); SOTA по длинному видео среди мультимодальных MoE; полностью открытые веса с нативными агентскими возможностями.

multimodal long-video moe agents efficiency china open-weights

Источники

официальный arXiv:2606.10651 — Kwai Keye-VL-2.0 Technical Report