Агентные трансформеры доказуемо обучаются поиску через обучение с подкреплением

исследования официальный 1 ист. ~1 мин

Теоретическое исследование, доказывающее, что агенты на основе трансформеров, обученные методом policy gradient в стохастической среде k-арного дерева, закономерно развивают механизм поиска в глубину: одна голова внимания отслеживает предыдущие действия, другая обнаруживает неудачи и инициирует откат. Политики, обученные на мелких деревьях, обобщаются на более глубокие без дополнительного обучения.

Почему это важно

Предоставляет редкие доказуемые гарантии для эмерджентного агентного поиска в трансформерах, обученных с помощью RL, механистически объясняя, почему агенты, обученные по учебному плану, способны обобщаться за пределы тренировочного распределения.

Важность: 2/5

Редкий теоретически доказуемый результат для эмерджентного DFS в трансформерах, обученных RL, с обобщением между распределениями; важен для понимания того, как RL-обучение формирует агентное рассуждение

reasoning rl transformers theory agents search

Источники

официальный Agentic Transformers Provably Learn to Search via Reinforcement Learning — arxiv