Слабые критики создают сильных учеников: On-Policy Critique Distillation для масштабируемого надзора
Rutgers University
Предлагается Progressive On-Policy Critique Distillation (OPCD), где слабая модель выступает критиком, указывающим направления для улучшения, а не выносящим бинарные суждения (arXiv:2606.00424). Ключевой инсайт: слабым критикам достаточно предлагать ненаправляющие в сторону ошибки направления улучшений — а не правильные финальные ответы — что позволяет сильным моделям использовать собственные знания для самосовершенствования. Метод фильтрует высококачественные критики и дистиллирует поведение, направляемое критиком, в сильную модель через адаптивное самообучение. Демонстрирует улучшения на бенчмарках рассуждений и согласования на протяжении итераций обучения.
Почему это важно
Масштабируемый надзор — центральная проблема согласования: по мере роста возможностей моделей человеческий и слабомодельный надзор становится недостаточным. OPCD предлагает практический путь, при котором дешёвые слабые критики могут ускорять развитие более сильных моделей без необходимости полного понимания задачи критиком — ему достаточно указать в лучшую сторону, решая ту же проблему, что конституционный AI и дебаты, но с позиции дистилляции.
Важность: 2/5
Заметная статья по масштабируемому надзору с практическими импликациями для пайплайнов обучения; затрагивает центральную проблему согласования.