ThoughtFold: интроспективное обучение предпочтениям сокращает токены рассуждения на 56% без потери точности

исследования официальный 1 ист. ~1 мин

ThoughtFold представляет фреймворк, устраняющий избыточные шаги в крупных моделях рассуждения через интроспективное выявление ненужного поиска внутри корректных траекторий с последующей оптимизацией предпочтений против этих шагов. Применённый к DeepSeek-R1-Distill-Qwen-7B, он сокращает использование токенов примерно на 56% при сохранении точности уровня state-of-the-art.

Почему это важно

Сокращает вычисления рассуждения примерно вдвое без потери точности, решая проблему избыточного мышления в обученных через RL моделях chain-of-thought.

Важность: 3/5

Верифицированная статья на arXiv (2606.03503); сокращение токенов на 56% без потери точности — практически значимый результат для снижения стоимости продакшн-инференса.

reasoning efficiency distillation rl paper

Источники

официальный ThoughtFold: Folding Reasoning Chains via Introspective Preference Learning — arXiv