S-Agent: пространственное использование инструментов активирует пространственный интеллект в VLM
Nanyang Technological University
S-Agent переосмысляет пространственное рассуждение в vision-language моделях как агентный процесс: VLM-планировщик вызывает пространственные инструменты для накопления свидетельств по проекциям из 2D в 3D и во времени, сохраняя память о сцене и агенте между кадрами. Подход не требует дообучения существующих моделей, а fine-tuned S-Agent-8B достигает результатов закрытых моделей на пространственных бенчмарках.
Почему это важно
Показывает, что агентность с инструментами может заменить грубое масштабирование в пространственном интеллекте: модель на 8B параметров достигает уровня frontier-систем с закрытым исходным кодом
Важность: 2/5
42 upvote на HF Daily Papers; улучшение пространственного рассуждения через использование инструментов без дообучения