Automated Weak-to-Strong Researcher: AI-агенты превосходят людей в исследованиях по alignment

Anthropic

исследования официальный 1 ист. ~1 мин

Исследователи Anthropic демонстрируют автономных AI-агентов, предлагающих идеи, проводящих эксперименты и итерирующих над открытыми задачами alignment — в частности, weak-to-strong supervision. Система достигла performance gap recovered (PGR) 0,97 за 5 дней; исследователи-люди достигли 0,23 за 7 дней на той же задаче. Агенты работают как параллельные экземпляры на базе Claude в изолированных sandbox-средах. Разработка дизайна оценки, а не её исполнение, определена как ключевое оставшееся узкое место. Sandbox-среда и датасеты опубликованы.

Почему это важно

Первая практическая демонстрация того, что AI-агенты могут существенно превосходить исследователей-людей на чётко определённых задачах alignment. Этот же цикл может ускорить саму работу по alignment, создавая потенциальную петлю обратной связи со значительными последствиями для безопасности.

Важность: 4/5

Anthropic; AI-агенты достигают PGR 0,97 против 0,23 у людей в исследованиях alignment — первый опубликованный случай, когда AI-driven исследования по alignment превосходят человеческие.

anthropic alignment weak-to-strong agents automated-research scalable-oversight

Источники

официальный Automated Weak-to-Strong Researcher — Anthropic Alignment Science