RubricEM: мета-RL с декомпозицией политики под руководством рубрик за пределами верифицируемых наград
RubricEM предлагает использовать рубрики как общий интерфейс, структурирующий выполнение политики, обратную связь судьи и память агента на протяжении всего жизненного цикла исследовательского агента. Фреймворк сочетает поэтапную декомпозицию политики с новой целевой функцией Stage-Structured GRPO для более плотных семантических наград при долгосрочных задачах. RubricEM-8B сопоставима с проприетарными системами глубокого исследования на четырёх бенчмарках длинных исследовательских работ.
Почему это важно
Устраняет фундаментальное ограничение RLVR: большинство задач не имеют верифицируемых наград с истинными значениями. Используя рубрики как структурированные сигналы наград, подход расширяет RL-дообучение на открытые задачи — такие как синтез доказательств и написание отчётов.
Важность: 3/5
Исследование Google — мета-RL за пределами верифицируемых наград, расширение RL на открытые исследовательские задачи, 56 голосов в HF Daily Papers