Learning while Deploying: флитовое обучение с подкреплением превращает развёртывание роботов в непрерывный тренинг
AGIBot
Представлен LWD (Learning While Deploying) — флитовый офлайн-онлайн RL-фреймворк, превращающий само развёртывание роботов в непрерывный цикл обучения для универсальных политик Vision-Language-Action (VLA). Предобученная политика развёртывается на флоте роботов; автономные роллауты и вмешательства человека наполняют общий replay buffer для итеративного обновления политики, адаптируясь к реальным смещениям распределения, которые статические обучающие датасеты не охватывают. Появилась в HuggingFace Daily Papers 4 мая.
Почему это важно
Один из первых опубликованных фреймворков для непрерывного RL-дообучения универсальных VLA-роботов на уровне флота в масштабе развёртывания, напрямую решающий проблему sim-to-real и смещения распределения, которая ограничивала практические роботические развёртывания. Модель «флот как обучающие данные» может существенно ускорить обучение универсальных роботов в условиях production.
Важность: 3/5
Оригинальный флитовый RL-фреймворк для робототехники в HF Daily Papers, решающий ключевое узкое место в практическом развёртывании роботов.