Astra: VLM с RL-обучением запрашивает симулятор мира для пространственных рассуждений
Astra сочетает VLM-политику с RL-обучением (Astra-VL) и симулятор мира (Astra-WM) на базе Bagel. При пространственных рассуждениях модель отдаёт симулятору инструкции на естественном языке для воображения новых точек обзора. Astra-WM поднимает результат Gemini-3-Flash на MMSI-Bench с 45,1 до 49,5; Astra-VL улучшает Qwen3-VL с 29,8 до 38,8 на MMSI-Bench и с 36,8 до 42,7 на MindCube.
Почему это важно
Пространственные рассуждения по ограниченному числу ракурсов — давняя слабость VLM. Astra демонстрирует, что активное воображение новых точек обзора через RL-обученное использование инструментов практически реализуемо и даёт измеримый прирост на устоявшихся бенчмарках 3D-рассуждений.
Важность: 2/5
Новая архитектура для пространственных рассуждений VLM с измеримым приростом на бенчмарках