Direct Corpus Interaction: переосмысление поиска для агентных систем
TIGER-Lab
Статья оспаривает представление о том, что поиск по векторному сходству оптимален для языковых агентов. Direct Corpus Interaction (DCI) позволяет агентам использовать инструменты общего назначения — grep, чтение файлов — для поиска в сырых корпусах, обеспечивая точные лексические ограничения, итеративное уточнение гипотез и локальную верификацию контекста. DCI существенно превосходит сильные базовые линии разреженного, плотного поиска и reranking на бенчмарках BRIGHT и BEIR без необходимости предварительной индексации или специализированных API поиска.
Почему это важно
55 голосов на HF Daily Papers; оспаривает доминирующую парадигму RAG: данные свидетельствуют о том, что агенты с прямым файловым доступом к корпусу превосходят специализированные пайплайны поиска.
Важность: 2/5
55 голосов на HF Daily Papers; практический вывод о том, что нативные для агента инструменты прямого доступа к корпусу превосходят векторный поиск, имеет последствия для проектирования RAG-систем.