Агентные трансформеры доказуемо обучаются поиску в глубину через обучение с подкреплением

Carnegie Mellon University / Ohio State University

исследования официальный 1 ист. ~1 мин

Статья содержит первое теоретическое доказательство того, что агенты на базе трансформеров обучаются механизмам поиска в глубину исключительно на основе разреженной обратной связи RL, без экспертных демонстраций. Конструируется двухголовый трансформер, где одна голова отслеживает предыдущие действия, а другая обнаруживает сбои и инициирует откат. При обучении по глубинному курикулуму DFS возникает поэтапно: модели, обученные на неглубоких деревьях, обобщаются на более глубокие, а несбалансированные распределения целей заставляют дисконтирование возврата порождать приоритизированный вариант DFS.

Почему это важно

Закрывает существенный теоретический пробел, объясняя, почему RL-обучение порождает агентов, способных к поиску, и даёт механистическое понимание специализации голов внимания трансформера в процессе RL — напрямую актуально для понимания и проектирования моделей рассуждений.

Важность: 3/5

Строгая теоретическая статья от CMU/OSU; первое доказательство того, что трансформеры обучаются DFS исключительно на RL — с прямыми следствиями для понимания фронтирных моделей рассуждений.

rl reasoning agents theory paper

Источники

официальный Agentic Transformers Provably Learn to Search via RL — arXiv:2606.00183