Astra: VLM с RL-обучением запрашивает симулятор мира для пространственных рассуждений

исследования офиц. + СМИ 2 ист. ~1 мин

Astra сочетает VLM-политику с RL-обучением (Astra-VL) и симулятор мира (Astra-WM) на базе Bagel. При пространственных рассуждениях модель отдаёт симулятору инструкции на естественном языке для воображения новых точек обзора. Astra-WM поднимает результат Gemini-3-Flash на MMSI-Bench с 45,1 до 49,5; Astra-VL улучшает Qwen3-VL с 29,8 до 38,8 на MMSI-Bench и с 36,8 до 42,7 на MindCube.

Почему это важно

Пространственные рассуждения по ограниченному числу ракурсов — давняя слабость VLM. Astra демонстрирует, что активное воображение новых точек обзора через RL-обученное использование инструментов практически реализуемо и даёт измеримый прирост на устоявшихся бенчмарках 3D-рассуждений.

Важность: 2/5

Новая архитектура для пространственных рассуждений VLM с измеримым приростом на бенчмарках

vlm reasoning world-models multimodal rl vision-language paper

Источники

официальный Thinking with Imagination: Agentic Visual Spatial Reasoning with World Simulators — arXiv

СМИ HuggingFace Paper Page — arXiv:2606.06476