AI2 публикует в открытый доступ MolmoAct2: роботизированная VLA, превосходящая GPT-5 в воплощённом рассуждении

AI2

исследования офиц. + СМИ 2 ист. ~1 мин

Allen Institute for AI выпускает MolmoAct2 — систему управления роботами с открытым исходным кодом, построенную на MolmoER, визуально-языковой модели, обученной на 3,3 млн примеров для пространственного рассуждения. Релиз включает три новых датасета — в том числе крупнейший открытый двуручный датасет на сегодняшний день с 720 часами телеуправляемых траекторий, — открытый токенизатор действий (OpenFAST) и MolmoThink — адаптивный механизм рассуждения, повторно предсказывающий токены глубины только для изменившихся областей сцены с целью снижения задержки. Полные веса модели, обучающий код и датасеты опубликованы публично.

Почему это важно

По имеющимся данным, MolmoER превосходит GPT-5 и Gemini Robotics ER-1.5 на бенчмарках воплощённого рассуждения по семи задачам. Публикация крупнейшего открытого двуручного датасета вместе с полным обучающим кодом — значимый вклад в открытую науку, особенно на фоне того, что frontier-лабы держат аналогичные ресурсы закрытыми.

Важность: 3/5

Открытая роботизированная модель AI2, претендующая на SOTA над GPT-5 в воплощённом рассуждении, с полным релизом датасета и кода.

Источники