CoPD: co-evolving policy distillation для унифицированных мультиспособных моделей
CoPD обучает специализированные экспертные политики параллельно и одновременно проводит дистилляцию по ходу их развития — эксперты обучают друг друга, а не тренируются последовательно с последующим объединением. Подход объединяет рассуждения над текстом, изображением и видео в одну модель и обходит как смешанный RLVR, так и бэйзлайны sequential expert-then-distill, и даже одно-доменных экспертов.
Почему это важно
Снимает практический failure mode обучения в стиле RLVR: при попытке научить одну модель многим способностям сразу возникает межспособностный конфликт, но последовательное обучение с дистилляцией оставляет поведенческий разрыв. Co-evolution — чистый ответ, нацеленный на унифицированные мультиспособные frontier-модели.
Важность: 2/5
Добротная методическая статья, базовая важность.