Агентные трансформеры доказуемо обучаются поиску в глубину через обучение с подкреплением
Carnegie Mellon University / Ohio State University
Статья содержит первое теоретическое доказательство того, что агенты на базе трансформеров обучаются механизмам поиска в глубину исключительно на основе разреженной обратной связи RL, без экспертных демонстраций. Конструируется двухголовый трансформер, где одна голова отслеживает предыдущие действия, а другая обнаруживает сбои и инициирует откат. При обучении по глубинному курикулуму DFS возникает поэтапно: модели, обученные на неглубоких деревьях, обобщаются на более глубокие, а несбалансированные распределения целей заставляют дисконтирование возврата порождать приоритизированный вариант DFS.
Почему это важно
Закрывает существенный теоретический пробел, объясняя, почему RL-обучение порождает агентов, способных к поиску, и даёт механистическое понимание специализации голов внимания трансформера в процессе RL — напрямую актуально для понимания и проектирования моделей рассуждений.
Важность: 3/5
Строгая теоретическая статья от CMU/OSU; первое доказательство того, что трансформеры обучаются DFS исключительно на RL — с прямыми следствиями для понимания фронтирных моделей рассуждений.