RLDX-1: Multi-Stream Action Transformer достигает 86,8% на гуманоидных задачах ALLEX

RLWRLD

исследования официальный 1 ист. ~1 мин

RLWRLD опубликовала технический отчёт по RLDX-1 (arXiv:2605.03269, 68 авторов), представляющему роботизированную VLA-политику на основе Multi-Stream Action Transformer (MSAT), интегрирующего модальности через модально-специфичные потоки с совместным кросс-модальным самовниманием. Трёхэтапный пайплайн обучения (предобучение на интернет-данных, среднее обучение на воплощении, тонкая настройка на задачах) достигает 86,8% успеха на гуманоидных задачах ALLEX против ~40% у pi0.5 и GR00T N1.6. Аугментация синтетическими данными с фильтрацией согласованности движений решает редкие сценарии манипуляций.

Почему это важно

Более чем двукратное превышение показателей успеха по сравнению с фронтирными VLA-конкурентами на гуманоидных задачах — существенный результат; открытые амбиции RLWRLD (анонсированные на GTC 2026) могут сделать этот подход широко доступным для исследовательского сообщества в области робототехники.

Важность: 3/5

SOTA-результат по гуманоидным задачам ловкой манипуляции, более чем в 2 раза превышающий предыдущие фронтирные VLA-базовые модели

robotics embodied-ai paper rl multimodal

Источники

официальный [2605.03269] RLDX-1 Technical Report — arXiv