Judge Circuits: механистическое объяснение непоследовательности LLM-as-judge по форматам

исследования официальный 1 ист. ~1 мин

Исследователи применили причинно-следственный анализ цепочек к Gemma-3, Qwen2.5 и Llama-3, чтобы объяснить, почему LLM-судьи выдают непоследовательные оценки в зависимости от формата вывода (например, 1–5 или True/False). В средних и поздних слоях был выявлен разреженный подграф «скрытого оценщика», общий для всех задач; единый непрерывный сигнал суждения проходит через хрупкие специфичные для формата конечные ветви, что объясняет дисперсию оценок, вызванную форматом (arXiv:2605.16023).

Почему это важно

LLM-as-judge является стандартом в evaluation-пайплайнах, однако его надёжность механистически изучена слабо. Это первый анализ на уровне цепочек, объясняющий расхождение суждений одной модели в зависимости от формата — напрямую применимый для калибровки систем автоматической оценки.

Важность: 3/5

Первый механистический анализ цепочек, объясняющий непоследовательность LLM-as-judge по форматам — напрямую применимый для evaluation-пайплайнов

interpretability mech-interp benchmark evaluation

Источники

официальный Judge Circuits (arXiv:2605.16023)