Qwen-AgentWorld: языковые мировые модели для универсальных агентов на 35B и 397B параметров
Qwen Team, Alibaba
Qwen-AgentWorld представляет две фундаментальные мировые модели (35B и 397B параметров), обученные на более чем 10 миллионах траекторий взаимодействия в семи областях с использованием трёхэтапного пайплайна: инжекция возможностей, активация предсказания следующего состояния и RL-уточнение. Система выступает одновременно масштабируемым симулятором среды для RL-обучения и этапом прогрева для последующих агентных задач; вместе с ней представлен новый бенчмарк AgentWorldBench.
Почему это важно
Языковые мировые модели, достоверно симулирующие динамику среды, могут снизить стоимость сбора RL-данных и позволить агентам отрабатывать навыки в симуляции до реального развёртывания. На 397B параметров это крупнейшая специализированная мировая модель для агентов на сегодняшний день.
Важность: 3/5
Крупнейшая специализированная языковая мировая модель для агентного RL-симулятора (397B) с двойным применением как симулятора и прогревочного этапа для последующих задач