HeavySkill: интернализация «тяжёлого мышления» как обучаемого агентного навыка через RL

исследования официальный 2 ист. ~1 мин

HeavySkill переосмысляет «тяжёлое мышление» в LLM не как внешний артефакт оркестрации, а как обучаемый, интернализованный навык, состоящий из двух этапов: параллельного рассуждения и последующего суммирования. Авторы показывают с помощью обучения с подкреплением, что этот навык можно углублять и расширять; эмпирические результаты демонстрируют стабильные улучшения по сравнению со стратегиями Best-of-N.

Почему это важно

Предполагает, что сложное рассуждение можно тренировать непосредственно в веса модели, а не выстраивать через внешние фреймворки промптинга, что влечёт последствия для дизайна агентных харнесов.

Важность: 2/5

Исследовательская статья, переосмысляющая тяжёлое мышление как обучаемый агентный навык через RL.

Источники