#vision-language
- MulTaBench: бенчмаркинг мультимодального табличного обучения с текстом и изображениями Technion research
- JoyAI-VL-Interaction: открытая VLM на 8B для взаимодействия в реальном времени с автономным управлением очередью речи JD.com research
- MemLens: бенчмарк мультимодальной долгосрочной памяти для моделей визуального языка NVIDIA research
- Astra: VLM с RL-обучением запрашивает симулятор мира для пространственных рассуждений research
- Tencent выпустил обновление HY-Embodied-0.5-X для воплощённых агентов Tencent models-llm