GrepSeek: обучение поисковых агентов для прямого взаимодействия с корпусом через команды оболочки (93 апвоута на HF)
University of Massachusetts Amherst
GrepSeek (arXiv 2605.29307) обучает LLM-агентов для поиска взаимодействовать с текстовыми корпусами через исполняемые shell-команды (grep, чтение файлов, лёгкие скрипты) вместо заранее построенных векторных индексов — парадигма называется Direct Corpus Interaction (DCI). Двухэтапный пайплайн объединяет генерацию траекторий с холодного старта с Group Relative Policy Optimization (GRPO), а движок с шардированным параллельным выполнением обеспечивает ускорение до 7,6×. Система достигает лучших результатов на семи бенчмарках открытого QA.
Почему это важно
Полностью устраняет узкое место семантического индекса, позволяя агентам выполнять точное лексическое сопоставление, конъюнктивный разреженный поиск по подсказкам и многошаговое уточнение гипотез непосредственно на сырых корпусах — возможности, с которыми RAG-системы на основе эмбеддингов справляются плохо. 93 апвоута в HuggingFace Daily Papers за 1 июня.
Важность: 3/5
93 апвоута на HF (второе место за 1 июня); новая парадигма DCI, обходящая ограничения векторных индексов для открытого QA.