DeNovoSWE: генерация полного репозитория с нуля — рост с 5.8% до 47.2% на синтетических обучающих данных

AweAI Team

исследования официальный 1 ист. ~1 мин

DeNovoSWE устраняет пробел в AI-агентах для кода: большинство обучающих данных охватывает исправление ошибок в существующих кодовых базах, а не построение полных репозиториев с нуля. Бенчмарк включает 4818 примеров, в каждом из которых требуется сгенерировать полный репозиторий по документации. Конвейер divide-and-conquer с critic-repair и фильтрацией по сложности формирует высококачественные обучающие траектории. Дообучение Qwen3-30B-A3B на этих данных поднимает метрику BeyondSWE-Doc2Repo с 5.8% до 47.2%.

Почему это важно

21 голос на HuggingFace 11 июня. Почти 10-кратный прирост на бенчмарке показывает, что качество обучающих данных для задач долгосрочного программирования — ключевое узкое место, которое можно устранить автоматизированным построением в песочницах. Приближает AI к роли полноценного архитектора ПО, а не только написателя патчей.

Важность: 3/5

Заметная исследовательская статья; почти 10-кратный прирост на бенчмарке генерации полных репозиториев; новая парадигма обучающих данных для агентов долгосрочного программирования.

Источники