Слабые критики создают сильных учеников: On-Policy Critique Distillation для масштабируемого надзора

Rutgers University

исследования официальный 1 ист. ~1 мин

Предлагается Progressive On-Policy Critique Distillation (OPCD), где слабая модель выступает критиком, указывающим направления для улучшения, а не выносящим бинарные суждения (arXiv:2606.00424). Ключевой инсайт: слабым критикам достаточно предлагать ненаправляющие в сторону ошибки направления улучшений — а не правильные финальные ответы — что позволяет сильным моделям использовать собственные знания для самосовершенствования. Метод фильтрует высококачественные критики и дистиллирует поведение, направляемое критиком, в сильную модель через адаптивное самообучение. Демонстрирует улучшения на бенчмарках рассуждений и согласования на протяжении итераций обучения.

Почему это важно

Масштабируемый надзор — центральная проблема согласования: по мере роста возможностей моделей человеческий и слабомодельный надзор становится недостаточным. OPCD предлагает практический путь, при котором дешёвые слабые критики могут ускорять развитие более сильных моделей без необходимости полного понимания задачи критиком — ему достаточно указать в лучшую сторону, решая ту же проблему, что конституционный AI и дебаты, но с позиции дистилляции.

Важность: 2/5

Заметная статья по масштабируемому надзору с практическими импликациями для пайплайнов обучения; затрагивает центральную проблему согласования.

alignment scalable-oversight distillation rl reasoning

Источники

официальный arXiv:2606.00424 — Weak Critics Make Strong Learners