WeaveBench: агенты компьютерного использования проваливаются на гибридных задачах GUI+CLI — 41% успешных выполнений

Microsoft Research

исследования официальный 2 ист. ~1 мин

WeaveBench включает 114 реальных задач, требующих от AI-агентов сочетания наблюдений/действий в GUI с операциями CLI и кода в единой траектории — первый бенчмарк, явно нацеленный на этот гибридный интерфейсный сценарий. Лучшая из существующих frontier-моделей достигает лишь 41,2% успешных выполнений на этих долгосрочных задачах. Опубликован на arXiv (2606.09426) с 95 апвоутами на HuggingFace Daily Papers.

Почему это важно

Реальные компьютерные рабочие процессы постоянно переключаются между графическими интерфейсами и терминалом. WeaveBench — первый бенчмарк, требующий свободной гибридной работы в одной траектории, и он показывает, что даже frontier-агенты не справляются с более чем половиной реалистичных задач компьютерного использования. 95 апвоутов на HF Daily Papers.

Важность: 3/5

Новый бенчмарк гибридного интерфейса от Microsoft Research; 95 апвоутов на HF; высокая практическая значимость для исследований агентов компьютерного использования.

Источники

официальный WeaveBench — arXiv
официальный WeaveBench — HuggingFace Papers