ESamp: LLM исследуют через latent distilling для семплирования по семантической новизне

ShanghaiTech University

исследования офиц. + СМИ 2 ист. ~1 мин

ESamp — метод декодирования, добавляющий семантическое (а не только лексическое) разнообразие за счёт обучения лёгкого Distiller'а на этапе теста для предсказания скрытых состояний более глубоких слоёв из неглубоких; ошибки предсказания используются как сигнал новизны, смещающий семплирование к менее изученным семантическим паттернам. Сообщается об улучшении Pass@k на математических, научных и кодовых бенчмарках при оверхеде инференса всего 1.2–5%.

Почему это важно

Решает давнюю слабость семплирования по температуре/top-p — стохастическое декодирование редко даёт действительно различные ходы рассуждения. Сигнал семантической новизны, разрывающий компромисс diversity-coherence, напрямую релевантен test-time scaling и методам self-consistency.

Важность: 2/5

Добротная методическая статья, базовая важность.

Источники