Квантизированные модели рассуждения думают, что им нужно думать дольше, — но это не так
Meta
Эмпирическое исследование, показывающее, что постобучающая квантизация моделей рассуждения парадоксально увеличивает длину цепочки рассуждений при снижении точности. В до 52% случаев ошибок квантизированные модели находят верный промежуточный ответ, но затем не выбирают его — поскольку позиции токенов с высокой энтропией вынуждают их избыточно сэмплировать маркеры «избыточного мышления» вроде «wait», «but», «alternatively». Не требующий обучения штраф logit на эти маркеры сокращает длину рассуждения на 12–23%, сохраняя или улучшая точность на 5 моделях (1,5B–32B), 3 методах квантизации и 5 бенчмарках.
Почему это важно
Квантизация является основной техникой для дешёвого деплоя крупных моделей рассуждения, однако данная работа выявляет ранее не диагностированный режим сбоя, объясняющий значительную часть потерь точности. Исправление без обучения применимо немедленно к любому развёртыванию квантизированной модели рассуждения, обеспечивая существенное снижение стоимости инференса без дообучения.
Важность: 3/5
Исправление без обучения для повсеместного режима сбоя квантизированного рассуждения; немедленное практическое воздействие на развёрнутые модели