RLDX-1: Multi-Stream Action Transformer достигает 86,8% на гуманоидных задачах ALLEX
RLWRLD
RLWRLD опубликовала технический отчёт по RLDX-1 (arXiv:2605.03269, 68 авторов), представляющему роботизированную VLA-политику на основе Multi-Stream Action Transformer (MSAT), интегрирующего модальности через модально-специфичные потоки с совместным кросс-модальным самовниманием. Трёхэтапный пайплайн обучения (предобучение на интернет-данных, среднее обучение на воплощении, тонкая настройка на задачах) достигает 86,8% успеха на гуманоидных задачах ALLEX против ~40% у pi0.5 и GR00T N1.6. Аугментация синтетическими данными с фильтрацией согласованности движений решает редкие сценарии манипуляций.
Почему это важно
Более чем двукратное превышение показателей успеха по сравнению с фронтирными VLA-конкурентами на гуманоидных задачах — существенный результат; открытые амбиции RLWRLD (анонсированные на GTC 2026) могут сделать этот подход широко доступным для исследовательского сообщества в области робототехники.
Важность: 3/5
SOTA-результат по гуманоидным задачам ловкой манипуляции, более чем в 2 раза превышающий предыдущие фронтирные VLA-базовые модели