Automated Weak-to-Strong Researcher: AI-агенты превосходят людей в исследованиях по alignment
Anthropic
Исследователи Anthropic демонстрируют автономных AI-агентов, предлагающих идеи, проводящих эксперименты и итерирующих над открытыми задачами alignment — в частности, weak-to-strong supervision. Система достигла performance gap recovered (PGR) 0,97 за 5 дней; исследователи-люди достигли 0,23 за 7 дней на той же задаче. Агенты работают как параллельные экземпляры на базе Claude в изолированных sandbox-средах. Разработка дизайна оценки, а не её исполнение, определена как ключевое оставшееся узкое место. Sandbox-среда и датасеты опубликованы.
Почему это важно
Первая практическая демонстрация того, что AI-агенты могут существенно превосходить исследователей-людей на чётко определённых задачах alignment. Этот же цикл может ускорить саму работу по alignment, создавая потенциальную петлю обратной связи со значительными последствиями для безопасности.
Важность: 4/5
Anthropic; AI-агенты достигают PGR 0,97 против 0,23 у людей в исследованиях alignment — первый опубликованный случай, когда AI-driven исследования по alignment превосходят человеческие.