EvoArena: LLM-агенты набирают лишь 40% в динамически изменяющихся средах

MIT / NUS / Salesforce

исследования официальный 2 ист. ~1 мин

EvoArena — бенчмарк, моделирующий среды как последовательности прогрессивных обновлений в терминальной, программной и социальной областях, — выявляет пробел в текущей оценке агентов, предполагающей статичность среды. Лучшие агенты в настоящее время достигают лишь ~40% точности. В статье также предлагается EvoMem — парадигма памяти на основе патчей, фиксирующая изменения среды в виде структурированных историй обновлений; EvoMem улучшает точность на уровне цепочки на 3,7% на EvoArena и на 4–6% на бенчмарках GAIA и LoCoMo. Опубликована на arXiv (2606.13681) и получила 121 апвоут на HuggingFace Daily Papers.

Почему это важно

Практически все существующие бенчмарки агентов используют статичные среды. EvoArena принуждает к оценке в условиях непрерывных изменений, а порог в 40% показывает, насколько далеки текущие агенты от готовности к реальному применению. 121 апвоут на HF Daily Papers.

Важность: 3/5

Новый бенчмарк, закрывающий реальный пробел в оценке агентов; высокая активность на HF Daily (121 апвоут); участие нескольких организаций повышает достоверность.

Источники

официальный EvoArena — arXiv
официальный EvoArena — HuggingFace Papers