PerceptionRubrics: атомарная рубричная оценка выявляет разрыв в 8% по восприятию между открытыми и закрытыми моделями
Исследователи Университета Джонса Хопкинса представляют PerceptionRubrics (ICML 2026): свыше 1000 визуально насыщенных изображений в паре с 12 004 атомарными рубриками оценки, разделёнными на критерии Must-Right и Easy-Wrong. Бинарный механизм оценки с учётом порогов штрафует за ошибки в обязательных визуальных элементах, а не усредняет оценки. Ключевой вывод: разрыв в 8% по восприятию сохраняется между open-source frontier-моделями и проприетарными лидерами.
Почему это важно
Стандартные мультимодальные бенчмарки завышают оценки за счёт усреднения; PerceptionRubrics обнажает хрупкость моделей в визуально насыщенных областях и лучше коррелирует с суждениями людей.
Важность: 3/5
Принято на ICML 2026; количественно фиксирует разрыв в 8% между open-source- и проприетарными frontier-моделями по восприятию; 35 голосов на HF Daily Papers