EvoArena: LLM-агенты набирают лишь 39,6% на бенчмарке динамически меняющихся сред

MIT

исследования офиц. + СМИ 2 ист. ~1 мин

EvoArena моделирует изменения среды как последовательности прогрессивных обновлений в терминальном, программном и социальном доменах — в отличие от статичных условий, принятых в большинстве оценок агентов. Лучшие из текущих агентов достигают лишь 39,6% точности. Авторы также предлагают EvoMem — механизм структурированной истории обновлений, повышающий результат на 1,5% на EvoArena, на 6,1% на GAIA и на 4,8% на LoCoMo.

Почему это важно

Бенчмарки со статичной средой, вероятно, существенно завышают реальную производительность агентов в условиях постоянно меняющихся условий. EvoArena количественно измеряет этот разрыв и предлагает конкретный механизм отслеживания памяти. №3 на HF Daily 12 июня с 50 голосами.

Важность: 2/5

№3 HF Daily 12 июня (50 голосов); выявляет существенный пробел в методологии оценки агентов

Источники