OPRD: дистилляция представлений на политике для пост-обучения LLM

исследования официальный 1 ист. ~1 мин

OPRD расширяет дистилляцию на политике из пространства выходов (логитов) в пространство скрытых представлений, согласовывая представления студента и учителя на выбранных слоях на совместных выборках. Межархитектурное расширение (OPRD-Bridge) переносит знания между моделями с разными архитектурами и токенизаторами через низкоранговую структуру представлений. Метод обеспечивает ускорение обучения в 1.44× и снижение памяти до 54% при существенном сокращении разрыва в производительности на математических бенчмарках, где методы на основе логитов достигают плато.

Почему это важно

Дистилляция на политике — стандартный компонент пайплайнов пост-обучения для фронтирных моделей. OPRD исправляет ключевой режим отказа — высокоэнтропийные распределения токенов, делающие градиенты в пространстве выходов неинформативными, — и открывает дистилляцию между несовместимыми семействами моделей.

Важность: 2/5

Дистилляция в пространстве представлений, устраняющая режим энтропийного сбоя в стандартной дистилляции логитов, с ускорением в 1.44× и межархитектурным расширением

rl reasoning post-training efficiency paper

Источники

официальный OPRD: On-Policy Representation Distillation — arXiv