Иллюзия самокоррекции: LLM исправляют чужие ошибки, но не свои — причина в ролевых метках

исследования официальный 1 ист. ~1 мин

LLM охотно исправляют ошибки, представленные как внешний ввод, но не справляются с коррекцией идентичных ошибок, оформленных как собственный предыдущий вывод. Статья изолирует причину: ролевые метки шаблона чата (сообщение пользователя, внутренняя мысль, вывод инструмента, системная память), а не само содержимое. Переметка ошибочного внутреннего утверждения как внешнего источника увеличивает частоту явных исправлений на 23–93 процентных пункта для 7 семейств моделей и 3 предметных областей (p < 0,001 в 10/13 тестовых ячейках). Вмешательство на уровне структуры промпта, не требующее дообучения, обеспечивает значительные улучшения.

Почему это важно

Переосмысляет сбои самокоррекции LLM как артефакт структуры промпта, а не фундаментальное когнитивное ограничение — это одновременно более практично (устраняется через промптинг) и раскрывает, насколько чувствительно поведение модели к фреймингу.

Важность: 3/5

Официальная публикация на arXiv; практические последствия для проектирования системных промптов агентов; изолирует первопричину широко наблюдаемого сбоя.

reasoning hallucination paper

Источники

официальный The Self-Correction Illusion — arXiv:2606.05976