GateMem: бенчмарк управления памятью в агентах с разделённым доступом

исследования официальный 1 ист. ~1 мин

GateMem — бенчмарк для оценки LLM-агентов, развёртываемых в многопользовательских институциональных средах (больницы, офисы, школы), по трём конкурирующим целям: полезность для легитимных запросов, ролевое управление доступом и надёжное удаление данных. Тестирование всех существующих методов показало, что ни один из них не обеспечивает все три свойства одновременно, что обнажает критический пробел перед реальным внедрением в организациях.

Почему это важно

Первый систематический бенчмарк управления памятью для агентов с разделённым доступом; напрямую релевантен для корпоративной безопасности и compliance по мере выхода агентных систем в регулируемые среды

Важность: 3/5

63 upvote на HF Daily Papers; новый бенчмарк по ранее не измерявшемуся измерению безопасности для production-агентов

agents alignment safety benchmark

Источники

официальный GateMem: Benchmarking Memory Governance in Multi-Principal Shared-Memory Agents — arxiv