GateMem: бенчмарк управления памятью в агентах с разделённым доступом
GateMem — бенчмарк для оценки LLM-агентов, развёртываемых в многопользовательских институциональных средах (больницы, офисы, школы), по трём конкурирующим целям: полезность для легитимных запросов, ролевое управление доступом и надёжное удаление данных. Тестирование всех существующих методов показало, что ни один из них не обеспечивает все три свойства одновременно, что обнажает критический пробел перед реальным внедрением в организациях.
Почему это важно
Первый систематический бенчмарк управления памятью для агентов с разделённым доступом; напрямую релевантен для корпоративной безопасности и compliance по мере выхода агентных систем в регулируемые среды
Важность: 3/5
63 upvote на HF Daily Papers; новый бенчмарк по ранее не измерявшемуся измерению безопасности для production-агентов