Dockerless: верификатор программ без окружения для агентов кодирования

ByteDance

исследования офиц. + СМИ 2 ист. ~1 мин

Dockerless — верификатор патчей кода, оценивающий корректность через агентное исследование репозитория вместо выполнения тестов в Docker-контейнерах. Превосходит наиболее сильный открытый верификатор на основе исполнения на 14,3 пункта AUC и достигает 62,0% успешного решения на SWE-bench Verified при использовании как для фильтрации траекторий, так и для генерации RL-наград, обеспечивая полностью бессредовый пайплайн дообучения агентов кодирования.

Почему это важно

90 голосов в HuggingFace Daily Papers (1 июля). Устраняет существенное практическое узкое место в обучении агентов кодирования — дорогостоящие контейнеризированные окружения — при сохранении или превышении качества верификации на основе исполнения.

Важность: 3/5

90 голосов в HF Daily Papers; SOTA на SWE-bench Verified без контейнеров; обеспечивает бессредовое дообучение агентов кодирования

Источники