MiniCPM-o 4.5: полнодуплексное омнимодальное AI в реальном времени на граничных устройствах

OpenBMB / Tsinghua University

исследования офиц. + СМИ 2 ист. ~1 мин

MiniCPM-o 4.5 — сквозная 9B-модель с полнодуплексным омнимодальным взаимодействием в реальном времени: она одновременно обрабатывает непрерывный видео- и аудиовход и генерирует текстовый и речевой вывод без взаимной блокировки. Построена на SigLIP2, Whisper-medium, CosyVoice2 и Qwen3-8B, работает на граничных устройствах с объёмом ОЗУ менее 12 ГБ и приближается к производительности Gemini 2.5 Flash на бенчмарках визуально-языкового понимания.

Почему это важно

Первая open-source модель с полнодуплексным омнимодальным взаимодействием в масштабе граничного устройства: доказывает, что одновременные возможности «видеть — слышать — говорить» на уровне Gemini 2.5 Flash помещаются в 9B open-weight модель — значимо для развёртывания AI-ассистентов on-device.

Важность: 3/5

Новая open-weight модель для граничных устройств с полнодуплексным режимом, приближающаяся по VLM-бенчмаркам к закрытым фронтирным моделям.

Источники

официальный arXiv:2604.27393 — MiniCPM-o 4.5