vision-language — AI Digest

15 мая MulTaBench: Benchmarking Multimodal Tabular Learning with Text and Images Technion research
17 июн JoyAI-VL-Interaction: Open-Source 8B Real-Time VLM with Autonomous Turn-Taking JD.com research
16 мая MemLens: Benchmark for Multimodal Long-Term Memory in Vision-Language Models NVIDIA research
12 июн Astra: RL-Trained VLM Queries World Simulator for Spatial Reasoning research
29 апр Tencent releases HY-Embodied-0.5-X update for embodied agents Tencent models-llm