EvoArena: LLM-агенты набирают лишь 40% в динамически изменяющихся средах
MIT / NUS / Salesforce
EvoArena — бенчмарк, моделирующий среды как последовательности прогрессивных обновлений в терминальной, программной и социальной областях, — выявляет пробел в текущей оценке агентов, предполагающей статичность среды. Лучшие агенты в настоящее время достигают лишь ~40% точности. В статье также предлагается EvoMem — парадигма памяти на основе патчей, фиксирующая изменения среды в виде структурированных историй обновлений; EvoMem улучшает точность на уровне цепочки на 3,7% на EvoArena и на 4–6% на бенчмарках GAIA и LoCoMo. Опубликована на arXiv (2606.13681) и получила 121 апвоут на HuggingFace Daily Papers.
Почему это важно
Практически все существующие бенчмарки агентов используют статичные среды. EvoArena принуждает к оценке в условиях непрерывных изменений, а порог в 40% показывает, насколько далеки текущие агенты от готовности к реальному применению. 121 апвоут на HF Daily Papers.
Важность: 3/5
Новый бенчмарк, закрывающий реальный пробел в оценке агентов; высокая активность на HF Daily (121 апвоут); участие нескольких организаций повышает достоверность.