RubricEM: мета-RL с декомпозицией политики под руководством рубрик за пределами верифицируемых наград

Google

исследования офиц. + СМИ 2 ист. ~1 мин

RubricEM предлагает использовать рубрики как общий интерфейс, структурирующий выполнение политики, обратную связь судьи и память агента на протяжении всего жизненного цикла исследовательского агента. Фреймворк сочетает поэтапную декомпозицию политики с новой целевой функцией Stage-Structured GRPO для более плотных семантических наград при долгосрочных задачах. RubricEM-8B сопоставима с проприетарными системами глубокого исследования на четырёх бенчмарках длинных исследовательских работ.

Почему это важно

Устраняет фундаментальное ограничение RLVR: большинство задач не имеют верифицируемых наград с истинными значениями. Используя рубрики как структурированные сигналы наград, подход расширяет RL-дообучение на открытые задачи — такие как синтез доказательств и написание отчётов.

Важность: 3/5

Исследование Google — мета-RL за пределами верифицируемых наград, расширение RL на открытые исследовательские задачи, 56 голосов в HF Daily Papers

Источники