Kwai Keye-VL-2.0: открытая мультимодальная MoE-модель 30B с контекстом 256K для длинного видео
Kwai
Kwai выпустил Keye-VL-2.0 — открытую мультимодальную модель 30B в архитектуре Mixture-of-Experts с 3B активных параметров. Ключевое достижение: адаптация sparse attention (на основе DeepSeek) для поддержки контекста 256K токенов без потерь при обработке видео длиной до часа. Новая техника обучения Cross-Modal Multi-Teacher On-Policy Distillation предотвращает катастрофическое забывание между задачами. Поддерживает мультимодальные агентские сценарии: выполнение кода, вызов инструментов и веб-поиск.
Почему это важно
785 голосов на HuggingFace — лучшая статья 10 июня. Обеспечивает state-of-the-art понимание длинного видео (Video-MME-v2, LongVideoBench, TimeLens) при конкурентном бюджете параметров, с полностью открытыми весами и встроенными агентскими возможностями. Повышает планку для открытых мультимодальных моделей.
Важность: 4/5
Лучшая статья HF Daily Paper 10 июня (785 голосов, +1 bump); SOTA по длинному видео среди мультимодальных MoE; полностью открытые веса с нативными агентскими возможностями.