Коллапс предпочтений мультимодального оценщика: кросс-модальное заражение в циклах самоэволюции агентов

исследования официальный 1 ист. ~1 мин

Исследование посвящено распространению кросс-модального смещения оценщика в циклах самоэволюции агентов с использованием LLM в роли судей. Фреймворк MM-EPC показывает, что при оценке GPT-4o модели DeepSeek-chat по нескольким модальностям одна стратегия может монополизировать почти половину сигнала вознаграждения — «кросс-модальное заражение». Кросс-модельная оценка является основным фактором риска; самооценка демонстрирует практически полный иммунитет. Подтверждено примерно 35 000 API-вызовами.

Почему это важно

По мере распространения самосовершенствующихся агентов понимание того, как выбор оценщика искажает сигналы вознаграждения, становится критически важным. Обнаружение того, что самооценка позволяет избежать заражения, создаёт конкретный компромисс в дизайне пайплайнов RLHF и эволюции агентов.

Важность: 2/5

Выявляет конкретный режим отказа в оценке LLM-as-judge для самоэволюционирующих агентов с эмпирической проверкой в масштабе.

evaluation agents multimodal alignment paper

Источники

официальный arXiv:2606.16682 — Multimodal Evaluator Preference Collapse