Агентные трансформеры доказуемо обучаются поиску через обучение с подкреплением
Теоретическое исследование, доказывающее, что агенты на основе трансформеров, обученные методом policy gradient в стохастической среде k-арного дерева, закономерно развивают механизм поиска в глубину: одна голова внимания отслеживает предыдущие действия, другая обнаруживает неудачи и инициирует откат. Политики, обученные на мелких деревьях, обобщаются на более глубокие без дополнительного обучения.
Почему это важно
Предоставляет редкие доказуемые гарантии для эмерджентного агентного поиска в трансформерах, обученных с помощью RL, механистически объясняя, почему агенты, обученные по учебному плану, способны обобщаться за пределы тренировочного распределения.
Важность: 2/5
Редкий теоретически доказуемый результат для эмерджентного DFS в трансформерах, обученных RL, с обобщением между распределениями; важен для понимания того, как RL-обучение формирует агентное рассуждение