PhysBrain 1.0: эгоцентрическое видео людей как обучающие данные для VLA-моделей роботов (133 апвоута на HF)

DeepCybo

исследования официальный 2 ист. ~1 мин

PhysBrain 1.0 — это vision-language-action модель, которая приобретает физический здравый смысл из масштабного эгоцентрического видео людей (Ego4D и аналогичные датасеты) до адаптации к роботу, не полагаясь исключительно на дорогостоящие траекторные данные роботов. Движок обработки данных на основе схем извлекает структурированную мета-информацию о сценах и преобразует её в физически обоснованные QA-пары. Пулы мультимодельной аннотации (GPT-5, Gemini 3.1 Pro, варианты Qwen3) генерируют разнообразную разметку. Полученные приоры переносятся на управление роботом через VLA-адаптер с сохранением возможностей. PhysBrain 1.0 достигает state-of-the-art на бенчмарках ERQA, PhysBench, SimplerEnv, LIBERO и RoboCasa с особо высокой обобщаемостью на внедоменные задачи.

Почему это важно

Получил 133 апвоута на HuggingFace. Демонстрирует жизнеспособный путь от массового дешёвого видео людей к воплощённому интеллекту роботов без дорогостоящей телеоперации роботов — масштабируемый маховик данных. SOTA-результаты на пяти роботизированных бенчмарках свидетельствуют о конкурентоспособности подхода с методами, основанными на траекториях.

Важность: 3/5

133 апвоута на HF; SOTA на 5 роботизированных бенчмарках с использованием эгоцентрического видео людей вместо дорогостоящей телеоперации — масштабируемый маховик данных для воплощённого AI

robotics embodied-ai multimodal vla physical-reasoning

Источники

официальный PhysBrain 1.0 — arXiv:2605.15298

официальный HuggingFace Daily Papers — 133 upvotes