WeaveBench: агенты компьютерного использования проваливаются на гибридных задачах GUI+CLI — 41% успешных выполнений
Microsoft Research
WeaveBench включает 114 реальных задач, требующих от AI-агентов сочетания наблюдений/действий в GUI с операциями CLI и кода в единой траектории — первый бенчмарк, явно нацеленный на этот гибридный интерфейсный сценарий. Лучшая из существующих frontier-моделей достигает лишь 41,2% успешных выполнений на этих долгосрочных задачах. Опубликован на arXiv (2606.09426) с 95 апвоутами на HuggingFace Daily Papers.
Почему это важно
Реальные компьютерные рабочие процессы постоянно переключаются между графическими интерфейсами и терминалом. WeaveBench — первый бенчмарк, требующий свободной гибридной работы в одной траектории, и он показывает, что даже frontier-агенты не справляются с более чем половиной реалистичных задач компьютерного использования. 95 апвоутов на HF Daily Papers.
Важность: 3/5
Новый бенчмарк гибридного интерфейса от Microsoft Research; 95 апвоутов на HF; высокая практическая значимость для исследований агентов компьютерного использования.