#computer-use 1 пункт 14 июн WeaveBench: агенты компьютерного использования проваливаются на гибридных задачах GUI+CLI — 41% успешных выполнений Microsoft Research research