ZPPO: дистилляция знаний через учителя-в-промптах превосходит градиентные методы для малых моделей рассуждений
NVIDIA
Zone of Proximal Policy Optimization (ZPPO, arXiv 2606.18216) встраивает руководство учителя в промпты, а не в градиенты: формируются промпты, попарно сопоставляющие правильные ответы учителя с неверными ответами студента для контрастивного обучения, и промпты, агрегирующие ошибки студента для выявления паттернов неудач. Тестирование на моделях-студентах 0,8B–9B с учителем на 27B показало, что ZPPO превосходит бейзлайны дистилляции и RL — с наибольшим выигрышем для меньших моделей.
Почему это важно
Лидер HuggingFace Daily Papers за 17 июня (27 голосов). Подход «промпт как учитель» предлагает лёгкую альтернативу градиентной дистилляции для пост-тренировки малых моделей рассуждений.
Важность: 2/5
Интересный подход к дистилляции, но скромное число голосов на HF (27); сильные результаты для обучения малых моделей