MiniCPM-o 4.5: полнодуплексное омнимодальное AI в реальном времени на граничных устройствах
OpenBMB / Tsinghua University
MiniCPM-o 4.5 — сквозная 9B-модель с полнодуплексным омнимодальным взаимодействием в реальном времени: она одновременно обрабатывает непрерывный видео- и аудиовход и генерирует текстовый и речевой вывод без взаимной блокировки. Построена на SigLIP2, Whisper-medium, CosyVoice2 и Qwen3-8B, работает на граничных устройствах с объёмом ОЗУ менее 12 ГБ и приближается к производительности Gemini 2.5 Flash на бенчмарках визуально-языкового понимания.
Почему это важно
Первая open-source модель с полнодуплексным омнимодальным взаимодействием в масштабе граничного устройства: доказывает, что одновременные возможности «видеть — слышать — говорить» на уровне Gemini 2.5 Flash помещаются в 9B open-weight модель — значимо для развёртывания AI-ассистентов on-device.
Важность: 3/5
Новая open-weight модель для граничных устройств с полнодуплексным режимом, приближающаяся по VLM-бенчмаркам к закрытым фронтирным моделям.