AI2 публикует в открытый доступ MolmoAct2: роботизированная VLA, превосходящая GPT-5 в воплощённом рассуждении
AI2
Allen Institute for AI выпускает MolmoAct2 — систему управления роботами с открытым исходным кодом, построенную на MolmoER, визуально-языковой модели, обученной на 3,3 млн примеров для пространственного рассуждения. Релиз включает три новых датасета — в том числе крупнейший открытый двуручный датасет на сегодняшний день с 720 часами телеуправляемых траекторий, — открытый токенизатор действий (OpenFAST) и MolmoThink — адаптивный механизм рассуждения, повторно предсказывающий токены глубины только для изменившихся областей сцены с целью снижения задержки. Полные веса модели, обучающий код и датасеты опубликованы публично.
Почему это важно
По имеющимся данным, MolmoER превосходит GPT-5 и Gemini Robotics ER-1.5 на бенчмарках воплощённого рассуждения по семи задачам. Публикация крупнейшего открытого двуручного датасета вместе с полным обучающим кодом — значимый вклад в открытую науку, особенно на фоне того, что frontier-лабы держат аналогичные ресурсы закрытыми.
Важность: 3/5
Открытая роботизированная модель AI2, претендующая на SOTA над GPT-5 в воплощённом рассуждении, с полным релизом датасета и кода.