VRRL: визуально заземлённая саморефлексия для моделей зрение-язык через RL

UT Austin / Cornell

исследования официальный 1 ист. ~1 мин

VRRL вводит два механизма на основе RL, помогающих VLM исправлять собственные ошибки с использованием реальных визуальных свидетельств, а не языковых приоров. Маскировка траекторий обучает модели восстанавливаться после ошибок в середине последовательности; буферизованный roll-in подвергает модели разнообразным состояниям отказа. При тестировании на бенчмарках визуального заземления вне распределения (таблицы, графики, пространственная навигация) VRRL существенно превосходит стандартный RL и базовые подходы с тонкой настройкой для рефлексии.

Почему это важно

VLM при саморефлексии часто опираются на языковую статистику вместо анализа изображения. VRRL непосредственно устраняет этот пробел; улучшения на таблицах и графиках актуальны для понимания документов.

Важность: 2/5

RL-подход, направленный на визуальное заземление VLM при саморефлексии, с практическим улучшением на задачах понимания документов вне распределения

vlm rl reasoning multimodal reinforcement-learning

Источники

официальный Visually Grounded Self-Reflection for VLMs via RL (arXiv)