Judge Circuits: механистическое объяснение непоследовательности LLM-as-judge по форматам
Исследователи применили причинно-следственный анализ цепочек к Gemma-3, Qwen2.5 и Llama-3, чтобы объяснить, почему LLM-судьи выдают непоследовательные оценки в зависимости от формата вывода (например, 1–5 или True/False). В средних и поздних слоях был выявлен разреженный подграф «скрытого оценщика», общий для всех задач; единый непрерывный сигнал суждения проходит через хрупкие специфичные для формата конечные ветви, что объясняет дисперсию оценок, вызванную форматом (arXiv:2605.16023).
Почему это важно
LLM-as-judge является стандартом в evaluation-пайплайнах, однако его надёжность механистически изучена слабо. Это первый анализ на уровне цепочек, объясняющий расхождение суждений одной модели в зависимости от формата — напрямую применимый для калибровки систем автоматической оценки.
Важность: 3/5
Первый механистический анализ цепочек, объясняющий непоследовательность LLM-as-judge по форматам — напрямую применимый для evaluation-пайплайнов