DeNovoSWE: генерация полного репозитория с нуля — рост с 5.8% до 47.2% на синтетических обучающих данных
AweAI Team
DeNovoSWE устраняет пробел в AI-агентах для кода: большинство обучающих данных охватывает исправление ошибок в существующих кодовых базах, а не построение полных репозиториев с нуля. Бенчмарк включает 4818 примеров, в каждом из которых требуется сгенерировать полный репозиторий по документации. Конвейер divide-and-conquer с critic-repair и фильтрацией по сложности формирует высококачественные обучающие траектории. Дообучение Qwen3-30B-A3B на этих данных поднимает метрику BeyondSWE-Doc2Repo с 5.8% до 47.2%.
Почему это важно
21 голос на HuggingFace 11 июня. Почти 10-кратный прирост на бенчмарке показывает, что качество обучающих данных для задач долгосрочного программирования — ключевое узкое место, которое можно устранить автоматизированным построением в песочницах. Приближает AI к роли полноценного архитектора ПО, а не только написателя патчей.
Важность: 3/5
Заметная исследовательская статья; почти 10-кратный прирост на бенчмарке генерации полных репозиториев; новая парадигма обучающих данных для агентов долгосрочного программирования.