ZPPO: дистилляция знаний через учителя-в-промптах превосходит градиентные методы для малых моделей рассуждений

NVIDIA

исследования официальный 2 ист. ~1 мин

Zone of Proximal Policy Optimization (ZPPO, arXiv 2606.18216) встраивает руководство учителя в промпты, а не в градиенты: формируются промпты, попарно сопоставляющие правильные ответы учителя с неверными ответами студента для контрастивного обучения, и промпты, агрегирующие ошибки студента для выявления паттернов неудач. Тестирование на моделях-студентах 0,8B–9B с учителем на 27B показало, что ZPPO превосходит бейзлайны дистилляции и RL — с наибольшим выигрышем для меньших моделей.

Почему это важно

Лидер HuggingFace Daily Papers за 17 июня (27 голосов). Подход «промпт как учитель» предлагает лёгкую альтернативу градиентной дистилляции для пост-тренировки малых моделей рассуждений.

Важность: 2/5

Интересный подход к дистилляции, но скромное число голосов на HF (27); сильные результаты для обучения малых моделей

reasoning rl distillation training policy-optimization

Источники

официальный arXiv:2606.18216

официальный HuggingFace Papers