GLM-5V-Turbo: нативная foundation-модель для мультимодальных агентов

Z.ai представила GLM-5V-Turbo — мультимодальную foundation-модель, в которой визуальное восприятие встроено как первоклассный компонент reasoning, планирования и tool use, а не подключено постфактум. Модель работает с изображениями, видео, веб-страницами и документами; авторы рапортуют рост на multimodal coding, visual tool use и агентских задачах при сохранении text-only качества. Подчёркивается роль end-to-end верификации агентских траекторий в обучении.

Почему это важно

Один из самых хайповых релизов недели на HF Daily — 2.28k upvotes. Заявка на нативно-мультимодального агента (а не VLM с прикрученным tool use) — направление, в котором Z.ai системно конкурирует с GPT-5 и Gemini.

Importance: 4/5

Флагманская paper от Z.ai; HF Daily 2.28k upvotes (>>100, +1 к базе 3).

Почему это важно

Источники