PerceptionRubrics: атомарная рубричная оценка выявляет разрыв в 8% по восприятию между открытыми и закрытыми моделями

исследования официальный 1 ист. ~1 мин

Исследователи Университета Джонса Хопкинса представляют PerceptionRubrics (ICML 2026): свыше 1000 визуально насыщенных изображений в паре с 12 004 атомарными рубриками оценки, разделёнными на критерии Must-Right и Easy-Wrong. Бинарный механизм оценки с учётом порогов штрафует за ошибки в обязательных визуальных элементах, а не усредняет оценки. Ключевой вывод: разрыв в 8% по восприятию сохраняется между open-source frontier-моделями и проприетарными лидерами.

Почему это важно

Стандартные мультимодальные бенчмарки завышают оценки за счёт усреднения; PerceptionRubrics обнажает хрупкость моделей в визуально насыщенных областях и лучше коррелирует с суждениями людей.

Важность: 3/5

Принято на ICML 2026; количественно фиксирует разрыв в 8% между open-source- и проприетарными frontier-моделями по восприятию; 35 голосов на HF Daily Papers

multimodal evaluation benchmark vision-language icml-2026

Источники

официальный PerceptionRubrics: Calibrating Multimodal Evaluation to Human Perception — arxiv