#scalable-oversight 2 пункта 8 мая Automated Weak-to-Strong Researcher: AI-агенты превосходят людей в исследованиях по alignment Anthropic research 9 июн Слабые критики создают сильных учеников: On-Policy Critique Distillation для масштабируемого надзора Rutgers University research