MMSkills: переиспользуемые мультимодальные скиллы для универсальных визуальных агентов (105 апвоутов на HF)
Shanghai Jiao Tong University
MMSkills представляет фреймворк для оснащения визуальных AI-агентов переиспользуемыми мультимодальными процедурными знаниями. Каждый пакет скилла объединяет текстовую процедуру с карточками состояния во время выполнения и многоракурсными ключевыми кадрами. Агентный генератор траектории-в-скилл преобразует публичные траектории взаимодействия в переиспользуемые скиллы через группировку рабочих процессов, индукцию процедур, визуальное заземление и аудит на основе мета-скиллов. Во время выполнения агент с ветвящейся загрузкой мультимодальных скиллов инспектирует визуальные карточки и ключевые кадры, согласует их с текущей средой и дистиллирует структурированные инструкции. Эксперименты на бенчмарках GUI и игровых задачах демонстрируют стабильные улучшения как для флагманских, так и для более мелких мультимодальных агентов.
Почему это важно
Получил 105 апвоутов на HuggingFace. Связывая текстовые процедуры с визуальными свидетельствами, а не ограничиваясь только текстовыми или кодовыми скиллами, MMSkills решает задачу повторного использования агентами прошлого опыта в визуально динамичных средах — строительный блок для более надёжных агентных систем в GUI-автоматизации и интерактивных задачах.
Важность: 3/5
105 апвоутов на HF; фреймворк переиспользования мультимодальных процедурных скиллов с продемонстрированными улучшениями на GUI- и игровых бенчмарках как для флагманских, так и для меньших агентов