ESamp: LLM исследуют через latent distilling для семплирования по семантической новизне
ShanghaiTech University
ESamp — метод декодирования, добавляющий семантическое (а не только лексическое) разнообразие за счёт обучения лёгкого Distiller'а на этапе теста для предсказания скрытых состояний более глубоких слоёв из неглубоких; ошибки предсказания используются как сигнал новизны, смещающий семплирование к менее изученным семантическим паттернам. Сообщается об улучшении Pass@k на математических, научных и кодовых бенчмарках при оверхеде инференса всего 1.2–5%.
Почему это важно
Решает давнюю слабость семплирования по температуре/top-p — стохастическое декодирование редко даёт действительно различные ходы рассуждения. Сигнал семантической новизны, разрывающий компромисс diversity-coherence, напрямую релевантен test-time scaling и методам self-consistency.
Важность: 2/5
Добротная методическая статья, базовая важность.