SWE-Explore: бенчмарк, выявляющий исследование репозитория как ключевое ограничение в агентах для написания кода

Shanghai Jiao Tong University

исследования официальный 2 ист. ~1 мин

SWE-Explore (arXiv:2606.07297) представляет бенчмарк из 848 GitHub-задач на 10 языках программирования и 203 репозиториях для оценки исследования репозитория — шага перед генерацией патча, на котором агент должен найти релевантный код. Классические ретриверы (BM25, TF-IDF) показывают результаты близкие к случайной базовой линии; агентные инструменты исследования достигают >65% точности на уровне файлов, но лишь ~15% точности на уровне строк. Замена GPT-5 на Gemini меняет абсолютные показатели, но не устраняет узкое место по полноте охвата, что указывает на то, что ограничение — в стратегии исследования, а не в сырой мощности модели.

Почему это важно

Большинство тестов агентов для написания кода измеряют конечный успех патча, скрывая реальное место сбоев агентов. SWE-Explore показывает, что фаза исследования является ключевым ограничением: пропуск релевантных областей кода вредит ремонту гораздо сильнее, чем включение нерелевантного контекста. Охват 10 языков и 203 репозиториев делает бенчмарк более представительным, чем SWE-bench с доминированием Python. Второе место на HF Daily Papers (77 голосов).

Важность: 2/5

Второе место на HF Daily Papers 9 июня (77 голосов); новый бенчмарк, выявляющий исследование как узкое место в пайплайнах агентов для написания кода.

agents coding benchmark software-engineering

Источники

официальный arXiv:2606.07297 — SWE-Explore

официальный HuggingFace Daily Papers