InterleaveThinker: RL-пайплайн «планировщик+критик» для перемежающейся генерации текста и изображений
CUHK Multimedia Lab
InterleaveThinker — многоагентный пайплайн из планировщика и агента-критика, наделяющий любой генератор изображений способностью создавать перемежающиеся текстово-графические последовательности. Планировщик организует входные последовательности; критик оценивает результаты и уточняет инструкции для повторной генерации. Обучение использует SFT-датасеты (80K примеров для планировщика, 112K для критика) и обучение с подкреплением GRPO с пошаговыми наградами. Система достигает производительности, сопоставимой с моделями уровня GPT-5, на бенчмарках перемежающейся генерации (WISE, RISE). Опубликована на arXiv (2606.13679) с 124 апвоутами на HuggingFace Daily Papers.
Почему это важно
Перемежающаяся текстово-графическая генерация (иллюстрированные истории, воплощённые инструкции) — ключевая отсутствующая возможность в открытых мультимодальных системах. Это первая работа, применяющая RL к пайплайну «планировщик+критик» для данной задачи, достигающая уровня проприетарных frontier-моделей на релевантных бенчмарках. 124 апвоута на HF Daily Papers.
Важность: 3/5
Новый RL-подход к перемежающейся генерации; производительность уровня GPT-5; 124 апвоута на HF свидетельствуют о высоком интересе сообщества.