MMSkills: переиспользуемые мультимодальные скиллы для универсальных визуальных агентов (105 апвоутов на HF)

Shanghai Jiao Tong University

исследования официальный 2 ист. ~1 мин

MMSkills представляет фреймворк для оснащения визуальных AI-агентов переиспользуемыми мультимодальными процедурными знаниями. Каждый пакет скилла объединяет текстовую процедуру с карточками состояния во время выполнения и многоракурсными ключевыми кадрами. Агентный генератор траектории-в-скилл преобразует публичные траектории взаимодействия в переиспользуемые скиллы через группировку рабочих процессов, индукцию процедур, визуальное заземление и аудит на основе мета-скиллов. Во время выполнения агент с ветвящейся загрузкой мультимодальных скиллов инспектирует визуальные карточки и ключевые кадры, согласует их с текущей средой и дистиллирует структурированные инструкции. Эксперименты на бенчмарках GUI и игровых задачах демонстрируют стабильные улучшения как для флагманских, так и для более мелких мультимодальных агентов.

Почему это важно

Получил 105 апвоутов на HuggingFace. Связывая текстовые процедуры с визуальными свидетельствами, а не ограничиваясь только текстовыми или кодовыми скиллами, MMSkills решает задачу повторного использования агентами прошлого опыта в визуально динамичных средах — строительный блок для более надёжных агентных систем в GUI-автоматизации и интерактивных задачах.

Важность: 3/5

105 апвоутов на HF; фреймворк переиспользования мультимодальных процедурных скиллов с продемонстрированными улучшениями на GUI- и игровых бенчмарках как для флагманских, так и для меньших агентов

Источники

официальный MMSkills — arXiv:2605.13527