Model Spec Midtraining: как нормативное самопознание улучшает обобщение alignment

Anthropic

исследования официальный 1 ист. ~1 мин

Опубликованное в блоге Alignment Science компании Anthropic исследование показывает, что обучение AI-систем понимать собственную спецификацию модели улучшает обобщение alignment-обучения на новые ситуации. Модели, интернализирующие свою спецификацию, лучше обобщают примеры alignment на случаи out-of-distribution, что свидетельствует о том, что явное нормативное самопознание служит каркасом для обобщения.

Почему это важно

Обобщение alignment — обеспечение переноса обученных ценностей на новые ситуации — является центральной открытой проблемой в области безопасности. Это исследование предоставляет свидетельства того, что побуждение моделей рассуждать о собственных нормах в процессе обучения является практическим инструментом, дополняющим RLHF и подходы constitutional AI.

Важность: 3/5

Команда alignment Anthropic; практические свидетельства того, что нормативное самопознание улучшает обобщение alignment — адресует центральную открытую проблему безопасности AI.

anthropic alignment model-spec generalization training safety

Источники

официальный Model Spec Midtraining: Improving How Alignment Training Generalizes — Anthropic Alignment Science