Tencent Hunyuan публикует в открытый доступ UniRL: унифицированное RL-дообучение для LLM и диффузионных моделей
Tencent / Hunyuan
Команда Tencent Hunyuan выпустила UniRL — фреймворк с открытым исходным кодом для унифицированного RL-дообучения LLM, визуально-языковых моделей и диффузионных/flow-matching-моделей. Он реализует единый цикл «генерация–оценка–преимущество–обновление–синхронизация», применимый к разнородным семействам моделей. В комплекте поставляются два алгоритма: Flow-DPPO для диффузионных/flow-моделей с масками доверительной области на основе точной дивергенции и DRPO для LLM со сглаженным квадратичным регуляризатором, взвешенным по преимуществу.
Почему это важно
RL-дообучение стало доминирующим путём к качеству фронтирных моделей. UniRL — один из первых публичных фреймворков, объединяющих этот пайплайн для семейств моделей текста, зрения и генерации изображений в единой кодовой базе.
Важность: 2/5
Первый публичный унифицированный фреймворк RL-дообучения, охватывающий LLM и диффузионные модели, от Tencent Hunyuan