HeavySkill: интернализация «тяжёлого мышления» как обучаемого агентного навыка через RL
HeavySkill переосмысляет «тяжёлое мышление» в LLM не как внешний артефакт оркестрации, а как обучаемый, интернализованный навык, состоящий из двух этапов: параллельного рассуждения и последующего суммирования. Авторы показывают с помощью обучения с подкреплением, что этот навык можно углублять и расширять; эмпирические результаты демонстрируют стабильные улучшения по сравнению со стратегиями Best-of-N.
Почему это важно
Предполагает, что сложное рассуждение можно тренировать непосредственно в веса модели, а не выстраивать через внешние фреймворки промптинга, что влечёт последствия для дизайна агентных харнесов.
Важность: 2/5
Исследовательская статья, переосмысляющая тяжёлое мышление как обучаемый агентный навык через RL.
Источники
официальный
HeavySkill on HuggingFace Daily Papers