OPID: дистилляция навыков на собственной политике улучшает RL агентов с длинным горизонтом
Institute of Automation, Chinese Academy of Sciences
OPID добавляет плотный, пообновный надзор к RL на основе результатов для LLM-агентов. В процессе обучения лёгкий LLM-анализатор извлекает два уровня навыков из выполненных траекторий post-hoc: сводки рабочих процессов на уровне эпизода и обоснования действий на уровне шага в критических точках принятия решений. Механизм critical-first routing встраивает соответствующий навык в историю взаимодействий, позволяя политике сопоставлять ответы с навыком и без него для оценки преимуществ на уровне токенов. На ALFWorld, WebShop и Search-QA OPID превосходит базовый RL только по результатам по показателям завершения задач, эффективности обучения и устойчивости.
Почему это важно
Чистый RL на основе наград для агентов с длинным горизонтом страдает от разреженного сигнала и медленного присвоения кредитов. OPID извлекает навыки из собственных прогонов агента, не требуя внешних библиотек навыков, что делает плотный надзор самодостаточным и практичным.
Важность: 3/5
HF Daily paper 28 июня (44 голоса); самодостаточный плотный надзор для агентного RL без внешних библиотек навыков