InterleaveThinker: RL-пайплайн «планировщик+критик» для перемежающейся генерации текста и изображений

CUHK Multimedia Lab

исследования официальный 3 ист. ~1 мин

InterleaveThinker — многоагентный пайплайн из планировщика и агента-критика, наделяющий любой генератор изображений способностью создавать перемежающиеся текстово-графические последовательности. Планировщик организует входные последовательности; критик оценивает результаты и уточняет инструкции для повторной генерации. Обучение использует SFT-датасеты (80K примеров для планировщика, 112K для критика) и обучение с подкреплением GRPO с пошаговыми наградами. Система достигает производительности, сопоставимой с моделями уровня GPT-5, на бенчмарках перемежающейся генерации (WISE, RISE). Опубликована на arXiv (2606.13679) с 124 апвоутами на HuggingFace Daily Papers.

Почему это важно

Перемежающаяся текстово-графическая генерация (иллюстрированные истории, воплощённые инструкции) — ключевая отсутствующая возможность в открытых мультимодальных системах. Это первая работа, применяющая RL к пайплайну «планировщик+критик» для данной задачи, достигающая уровня проприетарных frontier-моделей на релевантных бенчмарках. 124 апвоута на HF Daily Papers.

Важность: 3/5

Новый RL-подход к перемежающейся генерации; производительность уровня GPT-5; 124 апвоута на HF свидетельствуют о высоком интересе сообщества.

Источники

официальный InterleaveThinker — arXiv
официальный InterleaveThinker — GitHub