Odysseus: обучение VLM для интерактивного принятия решений на 100+ ходов с помощью RL
Princeton University
Odysseus обучает визуально-языковые модели играть в Super Mario Land на протяжении 100+ последовательных ходов с использованием варианта PPO с лёгким критиком на уровне хода. Предобученные VLM формируют сильные априорные данные об действиях, что существенно повышает эффективность обучения по сравнению с классическим deep RL с нуля. Фреймворк достигает как минимум 3-кратного среднего прогресса в игре по сравнению с frontier-моделями, сохраняя при этом общие возможности VLM.
Почему это важно
Долгосрочное интерактивное принятие решений (100+ ходов) с согласованным восприятием, рассуждением и действием остаётся открытой задачей для современных VLM. Odysseus демонстрирует практичный RL-рецепт, избегающий катастрофического забывания и существенно превосходящий frontier-модели — с результатами, вероятно переносимыми на реальные агентные задачи.
Важность: 2/5
Новый RL-рецепт для долгосрочного принятия решений VLM от Princeton, превосходящий frontier-модели в режиме 100+ ходов.