SWE-Explore: бенчмарк, выявляющий исследование репозитория как ключевое ограничение в агентах для написания кода
Shanghai Jiao Tong University
SWE-Explore (arXiv:2606.07297) представляет бенчмарк из 848 GitHub-задач на 10 языках программирования и 203 репозиториях для оценки исследования репозитория — шага перед генерацией патча, на котором агент должен найти релевантный код. Классические ретриверы (BM25, TF-IDF) показывают результаты близкие к случайной базовой линии; агентные инструменты исследования достигают >65% точности на уровне файлов, но лишь ~15% точности на уровне строк. Замена GPT-5 на Gemini меняет абсолютные показатели, но не устраняет узкое место по полноте охвата, что указывает на то, что ограничение — в стратегии исследования, а не в сырой мощности модели.
Почему это важно
Большинство тестов агентов для написания кода измеряют конечный успех патча, скрывая реальное место сбоев агентов. SWE-Explore показывает, что фаза исследования является ключевым ограничением: пропуск релевантных областей кода вредит ремонту гораздо сильнее, чем включение нерелевантного контекста. Охват 10 языков и 203 репозиториев делает бенчмарк более представительным, чем SWE-bench с доминированием Python. Второе место на HF Daily Papers (77 голосов).
Важность: 2/5
Второе место на HF Daily Papers 9 июня (77 голосов); новый бенчмарк, выявляющий исследование как узкое место в пайплайнах агентов для написания кода.