SubtleMemory: бенчмарк выявляет систематические провалы агентов в тонком реляционном запоминании
SubtleMemory представляет бенчмарк из 1 522 примеров для проверки способности AI-агентов работать с воспоминаниями, которые усиливают, расходятся или противоречат друг другу, — в отличие от простого воспроизведения. Построен на основе 10 длинных историй, подкреплённых 1 090 контролируемыми по отношениям наборами вариантов памяти; тестирует 11 систем памяти. Все проверенные системы демонстрируют систематические сбои в тонкой реляционной дискриминации памяти с различными паттернами отказов на этапах сохранения, извлечения и последующего рассуждения.
Почему это важно
Существующие бенчмарки памяти для агентов измеряют воспроизведение, а не реляционное рассуждение над конфликтующими воспоминаниями. SubtleMemory обнажает этот слепой spot во всех текущих подходах, мотивируя новое поколение архитектур памяти для долгосрочных агентов.
Важность: 2/5
Официальные arXiv + страница на HuggingFace; систематическая оценка 11 систем памяти, выявляющая общую фундаментальную слабость.