Model Spec Midtraining: как нормативное самопознание улучшает обобщение alignment
Anthropic
Опубликованное в блоге Alignment Science компании Anthropic исследование показывает, что обучение AI-систем понимать собственную спецификацию модели улучшает обобщение alignment-обучения на новые ситуации. Модели, интернализирующие свою спецификацию, лучше обобщают примеры alignment на случаи out-of-distribution, что свидетельствует о том, что явное нормативное самопознание служит каркасом для обобщения.
Почему это важно
Обобщение alignment — обеспечение переноса обученных ценностей на новые ситуации — является центральной открытой проблемой в области безопасности. Это исследование предоставляет свидетельства того, что побуждение моделей рассуждать о собственных нормах в процессе обучения является практическим инструментом, дополняющим RLHF и подходы constitutional AI.
Важность: 3/5
Команда alignment Anthropic; практические свидетельства того, что нормативное самопознание улучшает обобщение alignment — адресует центральную открытую проблему безопасности AI.