CoPD: co-evolving policy distillation для унифицированных мультиспособных моделей

исследования офиц. + СМИ 2 ист. ~1 мин

CoPD обучает специализированные экспертные политики параллельно и одновременно проводит дистилляцию по ходу их развития — эксперты обучают друг друга, а не тренируются последовательно с последующим объединением. Подход объединяет рассуждения над текстом, изображением и видео в одну модель и обходит как смешанный RLVR, так и бэйзлайны sequential expert-then-distill, и даже одно-доменных экспертов.

Почему это важно

Снимает практический failure mode обучения в стиле RLVR: при попытке научить одну модель многим способностям сразу возникает межспособностный конфликт, но последовательное обучение с дистилляцией оставляет поведенческий разрыв. Co-evolution — чистый ответ, нацеленный на унифицированные мультиспособные frontier-модели.

Важность: 2/5

Добротная методическая статья, базовая важность.

rl multimodal paper

Источники

официальный Co-Evolving Policy Distillation

СМИ HuggingFace Daily Papers entry