OPID: дистилляция навыков на собственной политике улучшает RL агентов с длинным горизонтом

Institute of Automation, Chinese Academy of Sciences

исследования официальный 2 ист. ~1 мин

OPID добавляет плотный, пообновный надзор к RL на основе результатов для LLM-агентов. В процессе обучения лёгкий LLM-анализатор извлекает два уровня навыков из выполненных траекторий post-hoc: сводки рабочих процессов на уровне эпизода и обоснования действий на уровне шага в критических точках принятия решений. Механизм critical-first routing встраивает соответствующий навык в историю взаимодействий, позволяя политике сопоставлять ответы с навыком и без него для оценки преимуществ на уровне токенов. На ALFWorld, WebShop и Search-QA OPID превосходит базовый RL только по результатам по показателям завершения задач, эффективности обучения и устойчивости.

Почему это важно

Чистый RL на основе наград для агентов с длинным горизонтом страдает от разреженного сигнала и медленного присвоения кредитов. OPID извлекает навыки из собственных прогонов агента, не требуя внешних библиотек навыков, что делает плотный надзор самодостаточным и практичным.

Важность: 3/5

HF Daily paper 28 июня (44 голоса); самодостаточный плотный надзор для агентного RL без внешних библиотек навыков

Источники