Arbor: автономное ML-исследование через уточнение дерева гипотез

NLPIR Lab

исследования официальный 1 ист. ~1 мин

Arbor представляет фреймворк для полностью автономного ML-исследования. Координатор на основе LLM управляет персистентным Hypothesis Tree, связывающим гипотезы, экспериментальные артефакты и накопленные знания. Агенты-исполнители проверяют отдельные гипотезы в изолированных песочницах, что позволяет знаниям накапливаться на протяжении многих экспериментальных итераций вместо сброса после каждого запуска. На MLE-Bench Lite Arbor достигает 86.36% по Any Medal score — более чем 2.5× относительного прироста по сравнению с Codex и Claude Code при одинаковом вычислительном бюджете.

Почему это важно

30 голосов на HuggingFace 11 июня. Конкретный шаг к AI-системам, способным вести устойчивое, накопительное научное исследование. Преимущество в 2.5× над Codex и Claude Code на стандартизированном бенчмарке ML-инженерии — убедительный эмпирический сигнал для агентов автономного исследования.

Важность: 3/5

Заметная исследовательская статья; фреймворк Hypothesis Tree для автономного исследования; улучшение в 2.5× над Codex/Claude Code на MLE-Bench Lite.

agents reasoning autonomous-research rl software-engineering

Источники

официальный arXiv:2606.11926 — Toward Generalist Autonomous Research via Hypothesis-Tree Refinement