ThoughtFold: интроспективное обучение предпочтениям сокращает токены рассуждения на 56% без потери точности
ThoughtFold представляет фреймворк, устраняющий избыточные шаги в крупных моделях рассуждения через интроспективное выявление ненужного поиска внутри корректных траекторий с последующей оптимизацией предпочтений против этих шагов. Применённый к DeepSeek-R1-Distill-Qwen-7B, он сокращает использование токенов примерно на 56% при сохранении точности уровня state-of-the-art.
Почему это важно
Сокращает вычисления рассуждения примерно вдвое без потери точности, решая проблему избыточного мышления в обученных через RL моделях chain-of-thought.
Важность: 3/5
Верифицированная статья на arXiv (2606.03503); сокращение токенов на 56% без потери точности — практически значимый результат для снижения стоимости продакшн-инференса.