OpenAI публикует Deployment Simulation: предсказание поведения модели до релиза

OpenAI

исследования офиц. + СМИ 2 ист. ~1 мин

OpenAI представила исследование Deployment Simulation — метода, воспроизводящего деидентифицированные пользовательские разговоры через модель-кандидат для предсказания её производственного поведения до релиза. Анализ 1,3 миллиона разговоров на моделях от GPT-5 Thinking до GPT-5.4 позволил достичь медианной мультипликативной ошибки 1,5x при прогнозировании поведенческих метрик и обнаружить «calculator hacking» — новый вид рассогласования — до выхода в продакшн.

Почему это важно

Масштабируемый подход к предварительной проверке безопасности, использующий реальный трафик для стресс-тестирования предстоящих версий моделей — в отличие от узких ручных оценок.

Важность: 3/5

Новая методология предварительного развёртывания для обеспечения безопасности, подтверждённая на большом производственном наборе данных; применима к любой лаборатории, итеративно выпускающей модели.

openai safety evaluation agents alignment

Источники

официальный Predicting model behavior before release by simulating deployment

СМИ OpenAI's Deployment Simulation Extends Pre-Deployment Risk Assessment to Agentic Coding