S-Agent: пространственное использование инструментов активирует пространственный интеллект в VLM

Nanyang Technological University

исследования официальный 1 ист. ~1 мин

S-Agent переосмысляет пространственное рассуждение в vision-language моделях как агентный процесс: VLM-планировщик вызывает пространственные инструменты для накопления свидетельств по проекциям из 2D в 3D и во времени, сохраняя память о сцене и агенте между кадрами. Подход не требует дообучения существующих моделей, а fine-tuned S-Agent-8B достигает результатов закрытых моделей на пространственных бенчмарках.

Почему это важно

Показывает, что агентность с инструментами может заменить грубое масштабирование в пространственном интеллекте: модель на 8B параметров достигает уровня frontier-систем с закрытым исходным кодом

Важность: 2/5

42 upvote на HF Daily Papers; улучшение пространственного рассуждения через использование инструментов без дообучения

Источники