RLDX-1: Multi-Stream Action Transformer Achieves 86.8% on ALLEX Humanoid Tasks

RLWRLD

Research official 1 src. ~1 min

RLWRLD published the RLDX-1 technical report (arXiv:2605.03269, 68 authors) presenting a robotic VLA policy built on the Multi-Stream Action Transformer (MSAT), integrating modalities via modality-specific streams with cross-modal joint self-attention. A three-stage training pipeline (internet-scale pre-training, embodiment mid-training, task fine-tuning) achieves 86.8% success on ALLEX humanoid tasks vs. ~40% for pi0.5 and GR00T N1.6. Synthetic data augmentation with motion-consistency filtering addresses rare manipulation scenarios.

Why it matters

More than doubling success rates over frontier VLA competitors on humanoid tasks is a substantial result; RLWRLD's open-source aspirations (previewed at GTC 2026) could make this approach broadly accessible to the robotics research community.

Importance: 3/5

SOTA result on humanoid dexterous manipulation, more than 2x over prior frontier VLA baselines

robotics embodied-ai paper rl multimodal

Sources

official [2605.03269] RLDX-1 Technical Report — arXiv