MemLens: бенчмарк мультимодальной долгосрочной памяти для моделей визуального языка

NVIDIA

исследования официальный 1 ист. ~1 мин

MemLens (arXiv 2605.14906, 62 голоса HF Daily) оценивает долгосрочную мультимодальную память в моделях визуального языка через 789 вопросов по пяти типам памяти и четырём длинам контекста, тестируя 27 моделей и 7 агентов с расширенной памятью. Ключевой вывод: долгоконтекстные LVLM успешно справляются за счёт прямой визуальной привязки в коротких контекстах, но резко деградируют по мере роста диалогов, тогда как агенты памяти остаются стабильными, но теряют визуальную точность. Рассуждение через несколько сессий вызывает затруднения практически у всех протестированных систем.

Почему это важно

По мере развёртывания мультимодальных агентов в долгосрочных сценариях (служба поддержки, репетиторство, воплощённые роботы) ограничения памяти становятся критическими. MemLens обеспечивает первую систематическую оценку по нескольким типам памяти и длинам контекста, выявляя чёткий пробел, мотивирующий гибридные архитектуры с длинным контекстом и структурированным поиском.

Важность: 3/5

62 голоса HF Daily; первая систематическая оценка мультимодальной долгосрочной памяти на 27 моделях; выявлена резкая деградация в длинных диалогах

multimodal memory benchmark vision-language long-context agents

Источники

официальный MemLens — arXiv