Коллапс предпочтений мультимодального оценщика: кросс-модальное заражение в циклах самоэволюции агентов
Исследование посвящено распространению кросс-модального смещения оценщика в циклах самоэволюции агентов с использованием LLM в роли судей. Фреймворк MM-EPC показывает, что при оценке GPT-4o модели DeepSeek-chat по нескольким модальностям одна стратегия может монополизировать почти половину сигнала вознаграждения — «кросс-модальное заражение». Кросс-модельная оценка является основным фактором риска; самооценка демонстрирует практически полный иммунитет. Подтверждено примерно 35 000 API-вызовами.
Почему это важно
По мере распространения самосовершенствующихся агентов понимание того, как выбор оценщика искажает сигналы вознаграждения, становится критически важным. Обнаружение того, что самооценка позволяет избежать заражения, создаёт конкретный компромисс в дизайне пайплайнов RLHF и эволюции агентов.
Важность: 2/5
Выявляет конкретный режим отказа в оценке LLM-as-judge для самоэволюционирующих агентов с эмпирической проверкой в масштабе.