vision-language — AI Digest

15 мая MulTaBench: бенчмаркинг мультимодального табличного обучения с текстом и изображениями Technion research
17 июн JoyAI-VL-Interaction: открытая VLM на 8B для взаимодействия в реальном времени с автономным управлением очередью речи JD.com research
16 мая MemLens: бенчмарк мультимодальной долгосрочной памяти для моделей визуального языка NVIDIA research
12 июн Astra: VLM с RL-обучением запрашивает симулятор мира для пространственных рассуждений research
29 апр Tencent выпустил обновление HY-Embodied-0.5-X для воплощённых агентов Tencent models-llm