AutoResearchBench — бенчмарк автономного поиска научной литературы для AI-агентов
BAAI
Опубликован новый бенчмарк для оценки агентов на задаче автономного поиска и обзора научных публикаций. Содержит две комплементарные постановки: Deep Research (multi-step расследование, ведущее к конкретной целевой статье) и Wide Research (полный сбор публикаций по заданным критериям, метрика — IoU). Даже сильнейшие LLM-агенты выбивают лишь 9.39% accuracy на Deep Research и 9.31% IoU на Wide Research.
Почему это важно
Закрывает методологическую дыру между общими web-агентами и реальной работой исследователя; цифры в районе 9% задают потолок, от которого можно мерить прогресс research-агентов в 2026.
Importance: 2/5
Новый бенчмарк, заметный на HF Daily; полезный baseline для research-агентов