Qwen-AgentWorld: языковые мировые модели для универсальных агентов на 35B и 397B параметров

Qwen Team, Alibaba

исследования офиц. + СМИ 2 ист. ~1 мин

Qwen-AgentWorld представляет две фундаментальные мировые модели (35B и 397B параметров), обученные на более чем 10 миллионах траекторий взаимодействия в семи областях с использованием трёхэтапного пайплайна: инжекция возможностей, активация предсказания следующего состояния и RL-уточнение. Система выступает одновременно масштабируемым симулятором среды для RL-обучения и этапом прогрева для последующих агентных задач; вместе с ней представлен новый бенчмарк AgentWorldBench.

Почему это важно

Языковые мировые модели, достоверно симулирующие динамику среды, могут снизить стоимость сбора RL-данных и позволить агентам отрабатывать навыки в симуляции до реального развёртывания. На 397B параметров это крупнейшая специализированная мировая модель для агентов на сегодняшний день.

Важность: 3/5

Крупнейшая специализированная языковая мировая модель для агентного RL-симулятора (397B) с двойным применением как симулятора и прогревочного этапа для последующих задач

Источники