SubtleMemory: бенчмарк выявляет систематические провалы агентов в тонком реляционном запоминании

исследования официальный 2 ист. ~1 мин

SubtleMemory представляет бенчмарк из 1 522 примеров для проверки способности AI-агентов работать с воспоминаниями, которые усиливают, расходятся или противоречат друг другу, — в отличие от простого воспроизведения. Построен на основе 10 длинных историй, подкреплённых 1 090 контролируемыми по отношениям наборами вариантов памяти; тестирует 11 систем памяти. Все проверенные системы демонстрируют систематические сбои в тонкой реляционной дискриминации памяти с различными паттернами отказов на этапах сохранения, извлечения и последующего рассуждения.

Почему это важно

Существующие бенчмарки памяти для агентов измеряют воспроизведение, а не реляционное рассуждение над конфликтующими воспоминаниями. SubtleMemory обнажает этот слепой spot во всех текущих подходах, мотивируя новое поколение архитектур памяти для долгосрочных агентов.

Важность: 2/5

Официальные arXiv + страница на HuggingFace; систематическая оценка 11 систем памяти, выявляющая общую фундаментальную слабость.

agents benchmark long-context reasoning paper

Источники

официальный SubtleMemory — arXiv:2606.05761

официальный SubtleMemory — HuggingFace Papers