VRRL: визуально заземлённая саморефлексия для моделей зрение-язык через RL
UT Austin / Cornell
VRRL вводит два механизма на основе RL, помогающих VLM исправлять собственные ошибки с использованием реальных визуальных свидетельств, а не языковых приоров. Маскировка траекторий обучает модели восстанавливаться после ошибок в середине последовательности; буферизованный roll-in подвергает модели разнообразным состояниям отказа. При тестировании на бенчмарках визуального заземления вне распределения (таблицы, графики, пространственная навигация) VRRL существенно превосходит стандартный RL и базовые подходы с тонкой настройкой для рефлексии.
Почему это важно
VLM при саморефлексии часто опираются на языковую статистику вместо анализа изображения. VRRL непосредственно устраняет этот пробел; улучшения на таблицах и графиках актуальны для понимания документов.
Важность: 2/5
RL-подход, направленный на визуальное заземление VLM при саморефлексии, с практическим улучшением на задачах понимания документов вне распределения