InterleaveThinker: RL-фреймворк для агентной генерации чередующегося текста и изображений
Мульти-агентный пайплайн, наделяющий любой генератор изображений возможностью чередующейся генерации текста и изображений с помощью агента-планировщика и агента-критика. Авторы вводят механизмы точностного и пошагового вознаграждения, позволяющие RL управлять полной многошаговой генерацией без обратного распространения через 25+ вызовов генератора. Результаты сопоставимы с GPT-5 на бенчмарках чередующейся генерации, а обучение также улучшает базовую производительность модели на бенчмарках рассуждений.
Почему это важно
Чередующаяся генерация текста и изображений (иллюстрированные отчёты, аннотированные документы) — ключевая нерешённая мультимодальная задача. Это статья №1 в HuggingFace Daily Paper за 12 июня с 65 голосами; предлагает чистый RL-рецепт, применимый поверх существующих генераторов.
Важность: 2/5
№1 HF Daily 12 июня (65 голосов), новый RL-рецепт для чередующейся мультимодальной генерации