SHERLOC: структурированная диагностическая локализация сокращает потребление токенов при ремонте кода на 36,7%

исследования официальный 1 ист. ~1 мин

SHERLOC (arXiv 2606.24820, 23 июня) — фреймворк без дообучения, решающий задачу локализации ошибок при ремонте кода на уровне репозитория. Он связывает reasoning-LLM с компактными инструментами для работы с репозиторием и механизмом самовосстановления, производя структурированные диагностические выводы. Достигает 84,33% accuracy@1 на SWE-Bench Lite, сокращая суммарное потребление токенов на 36,7%, и улучшает показатель успешного ремонта downstream-агента на 5,95 процентных пункта.

Почему это важно

Эффективность по токенам — практический потолок для агентных задач кодирования. Уполовинив стоимость локализации без какого-либо дообучения, SHERLOC делает дееспособных агентов ремонта кода существенно дешевле и проще в интеграции в существующие пайплайны.

Важность: 2/5

Метод без дообучения, достигающий сокращения токенов на 36,7% на SWE-Bench Lite с улучшением resolve rate на +5,95 пп; дообучение не требуется

coding-agent software-engineering efficiency swe-bench

Источники

официальный SHERLOC — arXiv