#monitorability 1 пункт 9 мая OpenAI раскрывает случайное использование оценки цепочки рассуждений при RL-обучении шести моделей OpenAI research