GrepSeek: обучение поисковых агентов для прямого взаимодействия с корпусом через команды оболочки (93 апвоута на HF)

University of Massachusetts Amherst

исследования официальный 2 ист. ~1 мин

GrepSeek (arXiv 2605.29307) обучает LLM-агентов для поиска взаимодействовать с текстовыми корпусами через исполняемые shell-команды (grep, чтение файлов, лёгкие скрипты) вместо заранее построенных векторных индексов — парадигма называется Direct Corpus Interaction (DCI). Двухэтапный пайплайн объединяет генерацию траекторий с холодного старта с Group Relative Policy Optimization (GRPO), а движок с шардированным параллельным выполнением обеспечивает ускорение до 7,6×. Система достигает лучших результатов на семи бенчмарках открытого QA.

Почему это важно

Полностью устраняет узкое место семантического индекса, позволяя агентам выполнять точное лексическое сопоставление, конъюнктивный разреженный поиск по подсказкам и многошаговое уточнение гипотез непосредственно на сырых корпусах — возможности, с которыми RAG-системы на основе эмбеддингов справляются плохо. 93 апвоута в HuggingFace Daily Papers за 1 июня.

Важность: 3/5

93 апвоута на HF (второе место за 1 июня); новая парадигма DCI, обходящая ограничения векторных индексов для открытого QA.

Источники