Dockerless: верификатор программ без окружения для агентов кодирования
ByteDance
Dockerless — верификатор патчей кода, оценивающий корректность через агентное исследование репозитория вместо выполнения тестов в Docker-контейнерах. Превосходит наиболее сильный открытый верификатор на основе исполнения на 14,3 пункта AUC и достигает 62,0% успешного решения на SWE-bench Verified при использовании как для фильтрации траекторий, так и для генерации RL-наград, обеспечивая полностью бессредовый пайплайн дообучения агентов кодирования.
Почему это важно
90 голосов в HuggingFace Daily Papers (1 июля). Устраняет существенное практическое узкое место в обучении агентов кодирования — дорогостоящие контейнеризированные окружения — при сохранении или превышении качества верификации на основе исполнения.
Важность: 3/5
90 голосов в HF Daily Papers; SOTA на SWE-bench Verified без контейнеров; обеспечивает бессредовое дообучение агентов кодирования