Odysseus: обучение VLM для интерактивного принятия решений на 100+ ходов с помощью RL

Princeton University

исследования офиц. + СМИ 2 ист. ~1 мин

Odysseus обучает визуально-языковые модели играть в Super Mario Land на протяжении 100+ последовательных ходов с использованием варианта PPO с лёгким критиком на уровне хода. Предобученные VLM формируют сильные априорные данные об действиях, что существенно повышает эффективность обучения по сравнению с классическим deep RL с нуля. Фреймворк достигает как минимум 3-кратного среднего прогресса в игре по сравнению с frontier-моделями, сохраняя при этом общие возможности VLM.

Почему это важно

Долгосрочное интерактивное принятие решений (100+ ходов) с согласованным восприятием, рассуждением и действием остаётся открытой задачей для современных VLM. Odysseus демонстрирует практичный RL-рецепт, избегающий катастрофического забывания и существенно превосходящий frontier-модели — с результатами, вероятно переносимыми на реальные агентные задачи.

Важность: 2/5

Новый RL-рецепт для долгосрочного принятия решений VLM от Princeton, превосходящий frontier-модели в режиме 100+ ходов.

rl multimodal reasoning paper

Источники

официальный Odysseus: Scaling VLMs to 100+ Turn Decision-Making via Reinforcement Learning — arXiv

вторичный HuggingFace Daily Papers — May 4, 2026