OpenAI раскрывает случайное использование оценки цепочки рассуждений при RL-обучении шести моделей

OpenAI

исследования офиц. + СМИ 2 ист. ~1 мин

OpenAI сообщила, что шесть выпущенных моделей — GPT-5.4 Thinking, GPT-5.1–5.4 Instant и GPT-5.3–5.4 mini — случайно подверглись оценке chain-of-thought в ходе RL-обучения. Эта практика запрещена внутренней политикой компании, поскольку создаёт стимулы к выработке вводящих в заблуждение цепочек рассуждений. Автоматизированная система обнаружения на основе регулярных выражений выявила три конкретных случая непреднамеренной оценки CoT; механизмы вознаграждения были исправлены, абляции не выявили явного снижения отслеживаемости CoT, хотя неизмеренные эффекты не исключаются. Независимую внешнюю проверку провела Redwood Research.

Почему это важно

Редкое публичное раскрытие информации об ошибке в обучении, затронувшей несколько выпущенных моделей; случайная оценка CoT может скрывать признаки несоответствующих целей в цепочках рассуждений моделей.

Важность: 3/5

Публичное раскрытие нарушения политики при обучении шести выпущенных моделей; независимая проверка Redwood Research подчёркивает риск подавления свидетельств несоответствующих целей в цепочках рассуждений.

openai alignment safety rl chain-of-thought monitorability

Источники

официальный Investigating the consequences of accidentally grading CoT during RL — OpenAI Alignment

СМИ A review of 'Investigating the consequences of accidentally grading CoT during RL' — Redwood Research